1  Sumário

1.1 O que você aprenderá?

Esta apostila percorreu uma trilha completa de análise estatística com R, desde a preparação dos dados até a comunicação dos resultados. A tabela abaixo consolida os conceitos centrais de cada capítulo.

Capítulo Conceito central Função principal em R
1 - Introdução População, amostra, parâmetro, variáveis str(), summary(), data()
2 - Limpeza Valores ausentes, tipos, duplicatas is.na(), drop_na(), distinct()
3 - Descritiva Tendência central, dispersão, posição mean(), sd(), IQR(), quantile()
4 - Normalidade Distribuição normal, testes de aderência shapiro.test(), ad.test()
5 - Não paramétricos Testes livres de distribuição wilcox.test(), kruskal.test()
6 - Correlação Força e direção da associação linear cor.test(), corrplot()
7 - ANOVA Comparação de múltiplos grupos aov(), TukeyHSD(), lme()
8 - Regressão Modelagem e diagnóstico de resíduos lm(), plot(), augment()
9 - Tamanho de efeito Magnitude prática dos resultados cohens_d(), eta_squared(), omega_squared()
10 - Visualização Comunicação visual de dados ggplot2, corrplot
11 - Comunicação Redação e apresentação de resultados kable(), kableExtra

1.2 Fluxo completo de uma análise

Toda análise estatística bem conduzida segue uma sequência lógica. O diagrama abaixo representa o fluxo que esta apostila ensina a percorrer:

1. IMPORTAR
   └── read_csv(), read_excel(), data()

2. INSPECIONAR
   └── str(), summary(), glimpse(), dim()

3. LIMPAR
   └── Verificar NA, tipos, duplicatas, outliers

4. DESCREVER
   └── Medidas de tendência central, dispersão, posição
   └── Visualizações exploratórias (histograma, boxplot, violin)

5. VERIFICAR PRESSUPOSTOS
   └── Normalidade: shapiro.test(), Q-Q plot
   └── Homocedasticidade: leveneTest()
   └── Independência: garantida pelo delineamento

6. TESTAR
   └── Paramétrico (normalidade atendida): t-test, ANOVA, regressão
   └── Não paramétrico (normalidade violada): Mann-Whitney, Kruskal-Wallis

7. MEDIR O EFEITO
   └── Cohen's d, eta², omega²

8. VISUALIZAR RESULTADOS
   └── Gráficos finais polidos com ggplot2

9. COMUNICAR
   └── Tabelas formatadas, redação científica, relatório

1.3 Decisões estatísticas: guia rápido

1.3.1 Qual teste usar para comparar grupos?

Situação Teste recomendado
2 grupos independentes, normal Teste t independente
2 grupos independentes, não normal Mann-Whitney U
2 grupos pareados, normal Teste t pareado
2 grupos pareados, não normal Wilcoxon signed-rank
3 ou mais grupos, normal ANOVA one-way
3 ou mais grupos, não normal Kruskal-Wallis + Dunn
2 fatores simultaneamente ANOVA two-way
Medidas repetidas Modelo misto (lme)

1.3.2 Qual medida de tamanho de efeito usar?

Contexto Medida Função em R
Comparação de 2 grupos Cohen’s d cohens_d()
ANOVA com 1 fator Eta-quadrado (η²) eta_squared()
ANOVA com múltiplos fatores Eta-quadrado parcial (η²p) eta_squared(partial=TRUE)
Estimativa menos viesada Omega-quadrado (ω²) omega_squared()
Correlação r de Pearson ou ρ de Spearman cor.test()

1.3.3 Como avaliar normalidade?

Método Quando usar Função
Q-Q plot Sempre - avaliação visual stat_qq() + stat_qq_line()
Shapiro-Wilk n < 5.000 shapiro.test()
Anderson-Darling Alternativa ao Shapiro nortest::ad.test()
Assimetria e curtose Complementar Skew(), Kurt()

1.4 O que não pode faltar em nenhum relatório

Ao apresentar qualquer resultado estatístico, sempre inclua:

  1. Estatística do teste: F, W, H, t, r — dependendo do método
  2. Graus de liberdade: parte da identificação do teste
  3. p-valor: com número real, não apenas “p < 0,05”
  4. Tamanho de efeito: com intervalo de confiança quando possível
  5. Verificação de pressupostos: indicando quais foram testados e os resultados

Exemplo de redação correta:

A ANOVA two-way revelou efeito principal significativo da origem (F(1,80) = 48,98; p < 0,001; η²p = 0,38; IC 95% [0,25; 0,49]), representando um efeito de grande magnitude segundo os critérios de Cohen.


1.5 Erros mais comuns — revisão final

Os 10 erros mais frequentes em análise estatística
  1. Não verificar o tipo das variáveis antes de escolher o teste
  2. Aplicar testes paramétricos sem verificar normalidade
  3. Usar múltiplos testes t no lugar da ANOVA
  4. Ignorar o problema de comparações múltiplas
  5. Interpretar p > 0,05 como “prova de ausência de efeito”
  6. Reportar apenas o p-valor sem o tamanho de efeito
  7. Remover outliers sem justificativa documentada
  8. Confundir correlação com causalidade
  9. Generalizar conclusões além do escopo dos dados
  10. Não verificar os pressupostos do modelo de regressão

1.6 O que vem a seguir

Esta é a versão 1 da apostila. Os módulos planejados para as próximas versões são:

Versão 2 - em construção

Análise multivariada

  • PCA (Análise de Componentes Principais)
  • Análise de clusters (k-means e hierárquica)
  • Análise discriminante linear
  • Redução de dimensionalidade

Projetos com dados públicos brasileiros

  • IBGE e SIDRA: população, PIB, saúde
  • Portal da Transparência: gastos públicos federais
  • DataSUS: indicadores de saúde
  • INEP: dados educacionais

O objetivo desses módulos é conectar os métodos desta apostila a problemas reais do contexto brasileiro, tornando o aprendizado mais próximo da prática profissional e da pesquisa nacional.


Esta apostila faz parte do projeto Café com R. É open source - use, estude e compartilhe.