1 Sumário
1.1 O que você aprenderá?
Esta apostila percorreu uma trilha completa de análise estatística com R, desde a preparação dos dados até a comunicação dos resultados. A tabela abaixo consolida os conceitos centrais de cada capítulo.
| Capítulo | Conceito central | Função principal em R |
|---|---|---|
| 1 - Introdução | População, amostra, parâmetro, variáveis | str(), summary(), data() |
| 2 - Limpeza | Valores ausentes, tipos, duplicatas | is.na(), drop_na(), distinct() |
| 3 - Descritiva | Tendência central, dispersão, posição | mean(), sd(), IQR(), quantile() |
| 4 - Normalidade | Distribuição normal, testes de aderência | shapiro.test(), ad.test() |
| 5 - Não paramétricos | Testes livres de distribuição | wilcox.test(), kruskal.test() |
| 6 - Correlação | Força e direção da associação linear | cor.test(), corrplot() |
| 7 - ANOVA | Comparação de múltiplos grupos | aov(), TukeyHSD(), lme() |
| 8 - Regressão | Modelagem e diagnóstico de resíduos | lm(), plot(), augment() |
| 9 - Tamanho de efeito | Magnitude prática dos resultados | cohens_d(), eta_squared(), omega_squared() |
| 10 - Visualização | Comunicação visual de dados | ggplot2, corrplot |
| 11 - Comunicação | Redação e apresentação de resultados | kable(), kableExtra |
1.2 Fluxo completo de uma análise
Toda análise estatística bem conduzida segue uma sequência lógica. O diagrama abaixo representa o fluxo que esta apostila ensina a percorrer:
1. IMPORTAR
└── read_csv(), read_excel(), data()
2. INSPECIONAR
└── str(), summary(), glimpse(), dim()
3. LIMPAR
└── Verificar NA, tipos, duplicatas, outliers
4. DESCREVER
└── Medidas de tendência central, dispersão, posição
└── Visualizações exploratórias (histograma, boxplot, violin)
5. VERIFICAR PRESSUPOSTOS
└── Normalidade: shapiro.test(), Q-Q plot
└── Homocedasticidade: leveneTest()
└── Independência: garantida pelo delineamento
6. TESTAR
└── Paramétrico (normalidade atendida): t-test, ANOVA, regressão
└── Não paramétrico (normalidade violada): Mann-Whitney, Kruskal-Wallis
7. MEDIR O EFEITO
└── Cohen's d, eta², omega²
8. VISUALIZAR RESULTADOS
└── Gráficos finais polidos com ggplot2
9. COMUNICAR
└── Tabelas formatadas, redação científica, relatório
1.3 Decisões estatísticas: guia rápido
1.3.1 Qual teste usar para comparar grupos?
| Situação | Teste recomendado |
|---|---|
| 2 grupos independentes, normal | Teste t independente |
| 2 grupos independentes, não normal | Mann-Whitney U |
| 2 grupos pareados, normal | Teste t pareado |
| 2 grupos pareados, não normal | Wilcoxon signed-rank |
| 3 ou mais grupos, normal | ANOVA one-way |
| 3 ou mais grupos, não normal | Kruskal-Wallis + Dunn |
| 2 fatores simultaneamente | ANOVA two-way |
| Medidas repetidas | Modelo misto (lme) |
1.3.2 Qual medida de tamanho de efeito usar?
| Contexto | Medida | Função em R |
|---|---|---|
| Comparação de 2 grupos | Cohen’s d | cohens_d() |
| ANOVA com 1 fator | Eta-quadrado (η²) | eta_squared() |
| ANOVA com múltiplos fatores | Eta-quadrado parcial (η²p) | eta_squared(partial=TRUE) |
| Estimativa menos viesada | Omega-quadrado (ω²) | omega_squared() |
| Correlação | r de Pearson ou ρ de Spearman | cor.test() |
1.3.3 Como avaliar normalidade?
| Método | Quando usar | Função |
|---|---|---|
| Q-Q plot | Sempre - avaliação visual | stat_qq() + stat_qq_line() |
| Shapiro-Wilk | n < 5.000 | shapiro.test() |
| Anderson-Darling | Alternativa ao Shapiro | nortest::ad.test() |
| Assimetria e curtose | Complementar | Skew(), Kurt() |
1.4 O que não pode faltar em nenhum relatório
Ao apresentar qualquer resultado estatístico, sempre inclua:
- Estatística do teste: F, W, H, t, r — dependendo do método
- Graus de liberdade: parte da identificação do teste
- p-valor: com número real, não apenas “p < 0,05”
- Tamanho de efeito: com intervalo de confiança quando possível
- Verificação de pressupostos: indicando quais foram testados e os resultados
Exemplo de redação correta:
A ANOVA two-way revelou efeito principal significativo da origem (F(1,80) = 48,98; p < 0,001; η²p = 0,38; IC 95% [0,25; 0,49]), representando um efeito de grande magnitude segundo os critérios de Cohen.
1.5 Erros mais comuns — revisão final
- Não verificar o tipo das variáveis antes de escolher o teste
- Aplicar testes paramétricos sem verificar normalidade
- Usar múltiplos testes t no lugar da ANOVA
- Ignorar o problema de comparações múltiplas
- Interpretar p > 0,05 como “prova de ausência de efeito”
- Reportar apenas o p-valor sem o tamanho de efeito
- Remover outliers sem justificativa documentada
- Confundir correlação com causalidade
- Generalizar conclusões além do escopo dos dados
- Não verificar os pressupostos do modelo de regressão
1.6 O que vem a seguir
Esta é a versão 1 da apostila. Os módulos planejados para as próximas versões são:
Análise multivariada
- PCA (Análise de Componentes Principais)
- Análise de clusters (k-means e hierárquica)
- Análise discriminante linear
- Redução de dimensionalidade
Projetos com dados públicos brasileiros
- IBGE e SIDRA: população, PIB, saúde
- Portal da Transparência: gastos públicos federais
- DataSUS: indicadores de saúde
- INEP: dados educacionais
O objetivo desses módulos é conectar os métodos desta apostila a problemas reais do contexto brasileiro, tornando o aprendizado mais próximo da prática profissional e da pesquisa nacional.
Esta apostila faz parte do projeto Café com R. É open source - use, estude e compartilhe.