14 Próximos passos
14.1 O que você aprendeu
Ao percorrer esta apostila, você passou por uma trilha completa de análise de dados com R, cobrindo desde a preparação dos dados até a comunicação dos resultados:
| Capítulo | Conteúdo | Competência adquirida |
|---|---|---|
| 1 | Conceitos fundamentais e dataset CO2 | Base conceitual e contexto experimental |
| 2 | Limpeza e preparação de dados | Diagnosticar e tratar dados brutos |
| 3 | Estatística descritiva | Resumir e explorar qualquer dataset |
| 4 | Distribuições e normalidade | Avaliar pressupostos com métodos gráficos e numéricos |
| 5 | Testes não paramétricos | Analisar dados que violam normalidade |
| 6 | Correlação | Quantificar e interpretar associações entre variáveis |
| 7 | ANOVA | Comparar múltiplos grupos com controle do erro tipo I |
| 8 | Regressão linear e diagnóstico | Modelar relações e validar pressupostos |
| 9 | Tamanho de efeito | Interpretar resultados além do p-valor |
| 10 | Visualização avançada | Comunicar dados com gráficos profissionais |
| 11 | Comunicação de resultados | Redigir e apresentar resultados para diferentes públicos |
14.2 Próximos passos recomendados
14.2.1 Nível intermediário - avançado
Modelos lineares generalizados (GLM)
Extensão da regressão linear para variáveis resposta não normais:
- Regressão logística para variáveis binárias
- Regressão de Poisson para contagens
- Regressão gamma para dados positivos assimétricos
Pacote recomendado: stats::glm(), broom para resultados organizados
Modelos mistos (dados hierárquicos e medidas repetidas)
Quando as observações não são independentes - alunos dentro de escolas, medidas repetidas no mesmo indivíduo, dados geograficamente agrupados.
Pacotes recomendados: lme4, nlme, lmerTest
Análise multivariada
- PCA (Análise de Componentes Principais): redução de dimensionalidade
- Análise de clusters: agrupamento não supervisionado
- Análise discriminante: classificação supervisionada
Pacotes recomendados: factoextra, FactoMineR, cluster
Séries temporais
Dados coletados ao longo do tempo com dependência temporal entre observações.
Pacotes recomendados: forecast, tsibble, fable
Machine learning com tidymodels
Framework coerente para modelagem preditiva no ecossistema tidyverse.
Pacotes recomendados: tidymodels, parsnip, recipes, yardstick
14.3 Projeto integrador - etapa 2
Esta apostila está planejada para ganhar um capítulo de projeto integrador com dados brasileiros públicos. O objetivo será percorrer todo o fluxo - importar, limpar, descrever, testar, modelar e comunicar - com um dataset do IBGE ou do Portal da Transparência, aplicando todos os conceitos abordados aqui em um contexto real e nacional.
14.4 Recursos para continuar aprendendo
14.4.1 Livros
| Título | Autores | Foco |
|---|---|---|
| R for Data Science (2a ed.) | Wickham, Cetinkaya-Rundel & Grolemund | Tidyverse completo |
| Statistical Inference via Data Science | Ismay & Kim | Estatística com tidyverse |
| Discovering Statistics Using R | Field, Miles & Field | Estatística aplicada |
| An Introduction to Statistical Learning | James et al. | Machine learning |
| Mixed Models with R | Clark | Modelos mistos |
Todos disponíveis gratuitamente online (exceto Field).
14.4.2 Fontes de dados para praticar
| Fonte | Conteúdo | URL |
|---|---|---|
| IBGE / SIDRA | Dados brasileiros de população e economia | sidra.ibge.gov.br |
| Portal da Transparência | Dados governamentais federais | portaldatransparencia.gov.br |
| TidyTuesday | Desafios semanais com dados públicos | github.com/rfordatascience/tidytuesday |
| Kaggle Datasets | Repositório com milhares de datasets | kaggle.com/datasets |
| Our World in Data | Dados globais de saúde e economia | ourworldindata.org |
14.4.3 Comunidades
- Café com R: este projeto - newsletter, aulas e comunidade
- R-Ladies: comunidade global focada em diversidade na comunidade R
- Posit Community: fórum oficial com suporte de alta qualidade
- Stack Overflow (tag [r]): perguntas e respostas técnicas
14.5 Reflexão final
A estatística é uma ferramenta para responder perguntas. O conhecimento do domínio - da área de pesquisa, do negócio, do contexto social - é igualmente importante ao conhecimento técnico. Um modelo estatístico correto interpretado sem contexto pode levar a conclusões erradas ou irrelevantes.
O objetivo final não é aplicar testes: é entender o fenômeno que os dados descrevem.
Esta apostila faz parte do projeto Café com R. É open source - use, estude e compartilhe.