14 Próximos passos

14.1 O que você aprendeu

Ao percorrer esta apostila, você passou por uma trilha completa de análise de dados com R, cobrindo desde a preparação dos dados até a comunicação dos resultados:

Capítulo	Conteúdo	Competência adquirida
1	Conceitos fundamentais e dataset CO2	Base conceitual e contexto experimental
2	Limpeza e preparação de dados	Diagnosticar e tratar dados brutos
3	Estatística descritiva	Resumir e explorar qualquer dataset
4	Distribuições e normalidade	Avaliar pressupostos com métodos gráficos e numéricos
5	Testes não paramétricos	Analisar dados que violam normalidade
6	Correlação	Quantificar e interpretar associações entre variáveis
7	ANOVA	Comparar múltiplos grupos com controle do erro tipo I
8	Regressão linear e diagnóstico	Modelar relações e validar pressupostos
9	Tamanho de efeito	Interpretar resultados além do p-valor
10	Visualização avançada	Comunicar dados com gráficos profissionais
11	Comunicação de resultados	Redigir e apresentar resultados para diferentes públicos

14.2 Próximos passos recomendados

14.2.1 Nível intermediário - avançado

Modelos lineares generalizados (GLM)

Extensão da regressão linear para variáveis resposta não normais:

Regressão logística para variáveis binárias
Regressão de Poisson para contagens
Regressão gamma para dados positivos assimétricos

Pacote recomendado: stats::glm(), broom para resultados organizados

Modelos mistos (dados hierárquicos e medidas repetidas)

Quando as observações não são independentes - alunos dentro de escolas, medidas repetidas no mesmo indivíduo, dados geograficamente agrupados.

Pacotes recomendados: lme4, nlme, lmerTest

Análise multivariada

PCA (Análise de Componentes Principais): redução de dimensionalidade
Análise de clusters: agrupamento não supervisionado
Análise discriminante: classificação supervisionada

Pacotes recomendados: factoextra, FactoMineR, cluster

Séries temporais

Dados coletados ao longo do tempo com dependência temporal entre observações.

Pacotes recomendados: forecast, tsibble, fable

Machine learning com tidymodels

Framework coerente para modelagem preditiva no ecossistema tidyverse.

Pacotes recomendados: tidymodels, parsnip, recipes, yardstick

14.3 Projeto integrador - etapa 2

Próxima etapa deste material

Esta apostila está planejada para ganhar um capítulo de projeto integrador com dados brasileiros públicos. O objetivo será percorrer todo o fluxo - importar, limpar, descrever, testar, modelar e comunicar - com um dataset do IBGE ou do Portal da Transparência, aplicando todos os conceitos abordados aqui em um contexto real e nacional.

14.4 Recursos para continuar aprendendo

14.4.1 Livros

Título	Autores	Foco
R for Data Science (2a ed.)	Wickham, Cetinkaya-Rundel & Grolemund	Tidyverse completo
Statistical Inference via Data Science	Ismay & Kim	Estatística com tidyverse
Discovering Statistics Using R	Field, Miles & Field	Estatística aplicada
An Introduction to Statistical Learning	James et al.	Machine learning
Mixed Models with R	Clark	Modelos mistos

Todos disponíveis gratuitamente online (exceto Field).

14.4.2 Fontes de dados para praticar

Fonte	Conteúdo	URL
IBGE / SIDRA	Dados brasileiros de população e economia	sidra.ibge.gov.br
Portal da Transparência	Dados governamentais federais	portaldatransparencia.gov.br
TidyTuesday	Desafios semanais com dados públicos	github.com/rfordatascience/tidytuesday
Kaggle Datasets	Repositório com milhares de datasets	kaggle.com/datasets
Our World in Data	Dados globais de saúde e economia	ourworldindata.org

14.4.3 Comunidades

Café com R: este projeto - newsletter, aulas e comunidade
R-Ladies: comunidade global focada em diversidade na comunidade R
Posit Community: fórum oficial com suporte de alta qualidade
Stack Overflow (tag [r]): perguntas e respostas técnicas

14.5 Reflexão final

A estatística é uma ferramenta para responder perguntas. O conhecimento do domínio - da área de pesquisa, do negócio, do contexto social - é igualmente importante ao conhecimento técnico. Um modelo estatístico correto interpretado sem contexto pode levar a conclusões erradas ou irrelevantes.

O objetivo final não é aplicar testes: é entender o fenômeno que os dados descrevem.

Esta apostila faz parte do projeto Café com R. É open source - use, estude e compartilhe.

--- title: "Próximos passos" --- ## O que você aprendeu Ao percorrer esta apostila, você passou por uma trilha completa de análise de dados com R, cobrindo desde a preparação dos dados até a comunicação dos resultados: | Capítulo | Conteúdo | Competência adquirida | |---|---|---| | 1 | Conceitos fundamentais e dataset CO2 | Base conceitual e contexto experimental | | 2 | Limpeza e preparação de dados | Diagnosticar e tratar dados brutos | | 3 | Estatística descritiva | Resumir e explorar qualquer dataset | | 4 | Distribuições e normalidade | Avaliar pressupostos com métodos gráficos e numéricos | | 5 | Testes não paramétricos | Analisar dados que violam normalidade | | 6 | Correlação | Quantificar e interpretar associações entre variáveis | | 7 | ANOVA | Comparar múltiplos grupos com controle do erro tipo I | | 8 | Regressão linear e diagnóstico | Modelar relações e validar pressupostos | | 9 | Tamanho de efeito | Interpretar resultados além do p-valor | | 10 | Visualização avançada | Comunicar dados com gráficos profissionais | | 11 | Comunicação de resultados | Redigir e apresentar resultados para diferentes públicos | ## Próximos passos recomendados ### Nível intermediário - avançado **Modelos lineares generalizados (GLM)** Extensão da regressão linear para variáveis resposta não normais: - Regressão logística para variáveis binárias - Regressão de Poisson para contagens - Regressão gamma para dados positivos assimétricos Pacote recomendado: `stats::glm()`, `broom` para resultados organizados --- **Modelos mistos (dados hierárquicos e medidas repetidas)** Quando as observações não são independentes - alunos dentro de escolas, medidas repetidas no mesmo indivíduo, dados geograficamente agrupados. Pacotes recomendados: `lme4`, `nlme`, `lmerTest` --- **Análise multivariada** - PCA (Análise de Componentes Principais): redução de dimensionalidade - Análise de clusters: agrupamento não supervisionado - Análise discriminante: classificação supervisionada Pacotes recomendados: `factoextra`, `FactoMineR`, `cluster` --- **Séries temporais** Dados coletados ao longo do tempo com dependência temporal entre observações. Pacotes recomendados: `forecast`, `tsibble`, `fable` --- **Machine learning com tidymodels** Framework coerente para modelagem preditiva no ecossistema tidyverse. Pacotes recomendados: `tidymodels`, `parsnip`, `recipes`, `yardstick` ## Projeto integrador - etapa 2 ::: callout-tip ## Próxima etapa deste material Esta apostila está planejada para ganhar um capítulo de projeto integrador com dados brasileiros públicos. O objetivo será percorrer todo o fluxo - importar, limpar, descrever, testar, modelar e comunicar - com um dataset do IBGE ou do Portal da Transparência, aplicando todos os conceitos abordados aqui em um contexto real e nacional. ::: ## Recursos para continuar aprendendo ### Livros | Título | Autores | Foco | |---|---|---| | R for Data Science (2a ed.) | Wickham, Cetinkaya-Rundel & Grolemund | Tidyverse completo | | Statistical Inference via Data Science | Ismay & Kim | Estatística com tidyverse | | Discovering Statistics Using R | Field, Miles & Field | Estatística aplicada | | An Introduction to Statistical Learning | James et al. | Machine learning | | Mixed Models with R | Clark | Modelos mistos | Todos disponíveis gratuitamente online (exceto Field). ### Fontes de dados para praticar | Fonte | Conteúdo | URL | |---|---|---| | IBGE / SIDRA | Dados brasileiros de população e economia | sidra.ibge.gov.br | | Portal da Transparência | Dados governamentais federais | portaldatransparencia.gov.br | | TidyTuesday | Desafios semanais com dados públicos | github.com/rfordatascience/tidytuesday | | Kaggle Datasets | Repositório com milhares de datasets | kaggle.com/datasets | | Our World in Data | Dados globais de saúde e economia | ourworldindata.org | ### Comunidades - **Café com R**: este projeto - newsletter, aulas e comunidade - **R-Ladies**: comunidade global focada em diversidade na comunidade R - **Posit Community**: fórum oficial com suporte de alta qualidade - **Stack Overflow** (tag [r]): perguntas e respostas técnicas ## Reflexão final > A estatística é uma ferramenta para responder perguntas. O conhecimento do domínio - da área de pesquisa, do negócio, do contexto social - é igualmente importante ao conhecimento técnico. Um modelo estatístico correto interpretado sem contexto pode levar a conclusões erradas ou irrelevantes. > > O objetivo final não é aplicar testes: é entender o fenômeno que os dados descrevem. --- *Esta apostila faz parte do projeto **Café com R**. É open source - use, estude e compartilhe.*