14  Próximos passos

14.1 O que você aprendeu

Ao percorrer esta apostila, você passou por uma trilha completa de análise de dados com R, cobrindo desde a preparação dos dados até a comunicação dos resultados:

Capítulo Conteúdo Competência adquirida
1 Conceitos fundamentais e dataset CO2 Base conceitual e contexto experimental
2 Limpeza e preparação de dados Diagnosticar e tratar dados brutos
3 Estatística descritiva Resumir e explorar qualquer dataset
4 Distribuições e normalidade Avaliar pressupostos com métodos gráficos e numéricos
5 Testes não paramétricos Analisar dados que violam normalidade
6 Correlação Quantificar e interpretar associações entre variáveis
7 ANOVA Comparar múltiplos grupos com controle do erro tipo I
8 Regressão linear e diagnóstico Modelar relações e validar pressupostos
9 Tamanho de efeito Interpretar resultados além do p-valor
10 Visualização avançada Comunicar dados com gráficos profissionais
11 Comunicação de resultados Redigir e apresentar resultados para diferentes públicos

14.2 Próximos passos recomendados

14.2.1 Nível intermediário - avançado

Modelos lineares generalizados (GLM)

Extensão da regressão linear para variáveis resposta não normais:

  • Regressão logística para variáveis binárias
  • Regressão de Poisson para contagens
  • Regressão gamma para dados positivos assimétricos

Pacote recomendado: stats::glm(), broom para resultados organizados


Modelos mistos (dados hierárquicos e medidas repetidas)

Quando as observações não são independentes - alunos dentro de escolas, medidas repetidas no mesmo indivíduo, dados geograficamente agrupados.

Pacotes recomendados: lme4, nlme, lmerTest


Análise multivariada

  • PCA (Análise de Componentes Principais): redução de dimensionalidade
  • Análise de clusters: agrupamento não supervisionado
  • Análise discriminante: classificação supervisionada

Pacotes recomendados: factoextra, FactoMineR, cluster


Séries temporais

Dados coletados ao longo do tempo com dependência temporal entre observações.

Pacotes recomendados: forecast, tsibble, fable


Machine learning com tidymodels

Framework coerente para modelagem preditiva no ecossistema tidyverse.

Pacotes recomendados: tidymodels, parsnip, recipes, yardstick

14.3 Projeto integrador - etapa 2

Próxima etapa deste material

Esta apostila está planejada para ganhar um capítulo de projeto integrador com dados brasileiros públicos. O objetivo será percorrer todo o fluxo - importar, limpar, descrever, testar, modelar e comunicar - com um dataset do IBGE ou do Portal da Transparência, aplicando todos os conceitos abordados aqui em um contexto real e nacional.

14.4 Recursos para continuar aprendendo

14.4.1 Livros

Título Autores Foco
R for Data Science (2a ed.) Wickham, Cetinkaya-Rundel & Grolemund Tidyverse completo
Statistical Inference via Data Science Ismay & Kim Estatística com tidyverse
Discovering Statistics Using R Field, Miles & Field Estatística aplicada
An Introduction to Statistical Learning James et al. Machine learning
Mixed Models with R Clark Modelos mistos

Todos disponíveis gratuitamente online (exceto Field).

14.4.2 Fontes de dados para praticar

Fonte Conteúdo URL
IBGE / SIDRA Dados brasileiros de população e economia sidra.ibge.gov.br
Portal da Transparência Dados governamentais federais portaldatransparencia.gov.br
TidyTuesday Desafios semanais com dados públicos github.com/rfordatascience/tidytuesday
Kaggle Datasets Repositório com milhares de datasets kaggle.com/datasets
Our World in Data Dados globais de saúde e economia ourworldindata.org

14.4.3 Comunidades

  • Café com R: este projeto - newsletter, aulas e comunidade
  • R-Ladies: comunidade global focada em diversidade na comunidade R
  • Posit Community: fórum oficial com suporte de alta qualidade
  • Stack Overflow (tag [r]): perguntas e respostas técnicas

14.5 Reflexão final

A estatística é uma ferramenta para responder perguntas. O conhecimento do domínio - da área de pesquisa, do negócio, do contexto social - é igualmente importante ao conhecimento técnico. Um modelo estatístico correto interpretado sem contexto pode levar a conclusões erradas ou irrelevantes.

O objetivo final não é aplicar testes: é entender o fenômeno que os dados descrevem.


Esta apostila faz parte do projeto Café com R. É open source - use, estude e compartilhe.