1 Sumário

1.1 O que você aprenderá?

Esta apostila percorreu uma trilha completa de análise estatística com R, desde a preparação dos dados até a comunicação dos resultados. A tabela abaixo consolida os conceitos centrais de cada capítulo.

Capítulo	Conceito central	Função principal em R
1 - Introdução	População, amostra, parâmetro, variáveis	`str()`, `summary()`, `data()`
2 - Limpeza	Valores ausentes, tipos, duplicatas	`is.na()`, `drop_na()`, `distinct()`
3 - Descritiva	Tendência central, dispersão, posição	`mean()`, `sd()`, `IQR()`, `quantile()`
4 - Normalidade	Distribuição normal, testes de aderência	`shapiro.test()`, `ad.test()`
5 - Não paramétricos	Testes livres de distribuição	`wilcox.test()`, `kruskal.test()`
6 - Correlação	Força e direção da associação linear	`cor.test()`, `corrplot()`
7 - ANOVA	Comparação de múltiplos grupos	`aov()`, `TukeyHSD()`, `lme()`
8 - Regressão	Modelagem e diagnóstico de resíduos	`lm()`, `plot()`, `augment()`
9 - Tamanho de efeito	Magnitude prática dos resultados	`cohens_d()`, `eta_squared()`, `omega_squared()`
10 - Visualização	Comunicação visual de dados	`ggplot2`, `corrplot`
11 - Comunicação	Redação e apresentação de resultados	`kable()`, `kableExtra`

1.2 Fluxo completo de uma análise

Toda análise estatística bem conduzida segue uma sequência lógica. O diagrama abaixo representa o fluxo que esta apostila ensina a percorrer:

1. IMPORTAR
   └── read_csv(), read_excel(), data()

2. INSPECIONAR
   └── str(), summary(), glimpse(), dim()

3. LIMPAR
   └── Verificar NA, tipos, duplicatas, outliers

4. DESCREVER
   └── Medidas de tendência central, dispersão, posição
   └── Visualizações exploratórias (histograma, boxplot, violin)

5. VERIFICAR PRESSUPOSTOS
   └── Normalidade: shapiro.test(), Q-Q plot
   └── Homocedasticidade: leveneTest()
   └── Independência: garantida pelo delineamento

6. TESTAR
   └── Paramétrico (normalidade atendida): t-test, ANOVA, regressão
   └── Não paramétrico (normalidade violada): Mann-Whitney, Kruskal-Wallis

7. MEDIR O EFEITO
   └── Cohen's d, eta², omega²

8. VISUALIZAR RESULTADOS
   └── Gráficos finais polidos com ggplot2

9. COMUNICAR
   └── Tabelas formatadas, redação científica, relatório

1.3 Decisões estatísticas: guia rápido

1.3.1 Qual teste usar para comparar grupos?

Situação	Teste recomendado
2 grupos independentes, normal	Teste t independente
2 grupos independentes, não normal	Mann-Whitney U
2 grupos pareados, normal	Teste t pareado
2 grupos pareados, não normal	Wilcoxon signed-rank
3 ou mais grupos, normal	ANOVA one-way
3 ou mais grupos, não normal	Kruskal-Wallis + Dunn
2 fatores simultaneamente	ANOVA two-way
Medidas repetidas	Modelo misto (`lme`)

1.3.2 Qual medida de tamanho de efeito usar?

Contexto	Medida	Função em R
Comparação de 2 grupos	Cohen’s d	`cohens_d()`
ANOVA com 1 fator	Eta-quadrado (η²)	`eta_squared()`
ANOVA com múltiplos fatores	Eta-quadrado parcial (η²p)	`eta_squared(partial=TRUE)`
Estimativa menos viesada	Omega-quadrado (ω²)	`omega_squared()`
Correlação	r de Pearson ou ρ de Spearman	`cor.test()`

1.3.3 Como avaliar normalidade?

Método	Quando usar	Função
Q-Q plot	Sempre - avaliação visual	`stat_qq()` + `stat_qq_line()`
Shapiro-Wilk	n < 5.000	`shapiro.test()`
Anderson-Darling	Alternativa ao Shapiro	`nortest::ad.test()`
Assimetria e curtose	Complementar	`Skew()`, `Kurt()`

1.4 O que não pode faltar em nenhum relatório

Ao apresentar qualquer resultado estatístico, sempre inclua:

Estatística do teste: F, W, H, t, r — dependendo do método
Graus de liberdade: parte da identificação do teste
p-valor: com número real, não apenas “p < 0,05”
Tamanho de efeito: com intervalo de confiança quando possível
Verificação de pressupostos: indicando quais foram testados e os resultados

Exemplo de redação correta:

A ANOVA two-way revelou efeito principal significativo da origem (F(1,80) = 48,98; p < 0,001; η²p = 0,38; IC 95% [0,25; 0,49]), representando um efeito de grande magnitude segundo os critérios de Cohen.

1.5 Erros mais comuns — revisão final

Os 10 erros mais frequentes em análise estatística

Não verificar o tipo das variáveis antes de escolher o teste
Aplicar testes paramétricos sem verificar normalidade
Usar múltiplos testes t no lugar da ANOVA
Ignorar o problema de comparações múltiplas
Interpretar p > 0,05 como “prova de ausência de efeito”
Reportar apenas o p-valor sem o tamanho de efeito
Remover outliers sem justificativa documentada
Confundir correlação com causalidade
Generalizar conclusões além do escopo dos dados
Não verificar os pressupostos do modelo de regressão

1.6 O que vem a seguir

Esta é a versão 1 da apostila. Os módulos planejados para as próximas versões são:

Versão 2 - em construção

Análise multivariada

PCA (Análise de Componentes Principais)
Análise de clusters (k-means e hierárquica)
Análise discriminante linear
Redução de dimensionalidade

Projetos com dados públicos brasileiros

IBGE e SIDRA: população, PIB, saúde
Portal da Transparência: gastos públicos federais
DataSUS: indicadores de saúde
INEP: dados educacionais

O objetivo desses módulos é conectar os métodos desta apostila a problemas reais do contexto brasileiro, tornando o aprendizado mais próximo da prática profissional e da pesquisa nacional.

Esta apostila faz parte do projeto Café com R. É open source - use, estude e compartilhe.

--- title: "Sumário" --- ## O que você aprenderá? Esta apostila percorreu uma trilha completa de análise estatística com R, desde a preparação dos dados até a comunicação dos resultados. A tabela abaixo consolida os conceitos centrais de cada capítulo. | Capítulo | Conceito central | Função principal em R | |------------------------|------------------------|------------------------| | 1 - Introdução | População, amostra, parâmetro, variáveis | `str()`, `summary()`, `data()` | | 2 - Limpeza | Valores ausentes, tipos, duplicatas | `is.na()`, `drop_na()`, `distinct()` | | 3 - Descritiva | Tendência central, dispersão, posição | `mean()`, `sd()`, `IQR()`, `quantile()` | | 4 - Normalidade | Distribuição normal, testes de aderência | `shapiro.test()`, `ad.test()` | | 5 - Não paramétricos | Testes livres de distribuição | `wilcox.test()`, `kruskal.test()` | | 6 - Correlação | Força e direção da associação linear | `cor.test()`, `corrplot()` | | 7 - ANOVA | Comparação de múltiplos grupos | `aov()`, `TukeyHSD()`, `lme()` | | 8 - Regressão | Modelagem e diagnóstico de resíduos | `lm()`, `plot()`, `augment()` | | 9 - Tamanho de efeito | Magnitude prática dos resultados | `cohens_d()`, `eta_squared()`, `omega_squared()` | | 10 - Visualização | Comunicação visual de dados | `ggplot2`, `corrplot` | | 11 - Comunicação | Redação e apresentação de resultados | `kable()`, `kableExtra` | ------------------------------------------------------------------------ ## Fluxo completo de uma análise Toda análise estatística bem conduzida segue uma sequência lógica. O diagrama abaixo representa o fluxo que esta apostila ensina a percorrer: ``` 1. IMPORTAR └── read_csv(), read_excel(), data() 2. INSPECIONAR └── str(), summary(), glimpse(), dim() 3. LIMPAR └── Verificar NA, tipos, duplicatas, outliers 4. DESCREVER └── Medidas de tendência central, dispersão, posição └── Visualizações exploratórias (histograma, boxplot, violin) 5. VERIFICAR PRESSUPOSTOS └── Normalidade: shapiro.test(), Q-Q plot └── Homocedasticidade: leveneTest() └── Independência: garantida pelo delineamento 6. TESTAR └── Paramétrico (normalidade atendida): t-test, ANOVA, regressão └── Não paramétrico (normalidade violada): Mann-Whitney, Kruskal-Wallis 7. MEDIR O EFEITO └── Cohen's d, eta², omega² 8. VISUALIZAR RESULTADOS └── Gráficos finais polidos com ggplot2 9. COMUNICAR └── Tabelas formatadas, redação científica, relatório ``` ------------------------------------------------------------------------ ## Decisões estatísticas: guia rápido ### Qual teste usar para comparar grupos? | Situação | Teste recomendado | |------------------------------------|-----------------------| | 2 grupos independentes, normal | Teste t independente | | 2 grupos independentes, não normal | Mann-Whitney U | | 2 grupos pareados, normal | Teste t pareado | | 2 grupos pareados, não normal | Wilcoxon signed-rank | | 3 ou mais grupos, normal | ANOVA one-way | | 3 ou mais grupos, não normal | Kruskal-Wallis + Dunn | | 2 fatores simultaneamente | ANOVA two-way | | Medidas repetidas | Modelo misto (`lme`) | ### Qual medida de tamanho de efeito usar? | Contexto | Medida | Função em R | |------------------------|------------------------|------------------------| | Comparação de 2 grupos | Cohen's d | `cohens_d()` | | ANOVA com 1 fator | Eta-quadrado (η²) | `eta_squared()` | | ANOVA com múltiplos fatores | Eta-quadrado parcial (η²p) | `eta_squared(partial=TRUE)` | | Estimativa menos viesada | Omega-quadrado (ω²) | `omega_squared()` | | Correlação | r de Pearson ou ρ de Spearman | `cor.test()` | ### Como avaliar normalidade? | Método | Quando usar | Função | |------------------------|------------------------|------------------------| | Q-Q plot | Sempre - avaliação visual | `stat_qq()` + `stat_qq_line()` | | Shapiro-Wilk | n \< 5.000 | `shapiro.test()` | | Anderson-Darling | Alternativa ao Shapiro | `nortest::ad.test()` | | Assimetria e curtose | Complementar | `Skew()`, `Kurt()` | ------------------------------------------------------------------------ ## O que não pode faltar em nenhum relatório Ao apresentar qualquer resultado estatístico, sempre inclua: 1. **Estatística do teste**: F, W, H, t, r — dependendo do método 2. **Graus de liberdade**: parte da identificação do teste 3. **p-valor**: com número real, não apenas "p \< 0,05" 4. **Tamanho de efeito**: com intervalo de confiança quando possível 5. **Verificação de pressupostos**: indicando quais foram testados e os resultados **Exemplo de redação correta:** > A ANOVA two-way revelou efeito principal significativo da origem (F(1,80) = 48,98; p \< 0,001; η²p = 0,38; IC 95% \[0,25; 0,49\]), representando um efeito de grande magnitude segundo os critérios de Cohen. ------------------------------------------------------------------------ ## Erros mais comuns — revisão final ::: callout-warning ## Os 10 erros mais frequentes em análise estatística 1. Não verificar o tipo das variáveis antes de escolher o teste 2. Aplicar testes paramétricos sem verificar normalidade 3. Usar múltiplos testes t no lugar da ANOVA 4. Ignorar o problema de comparações múltiplas 5. Interpretar p \> 0,05 como "prova de ausência de efeito" 6. Reportar apenas o p-valor sem o tamanho de efeito 7. Remover outliers sem justificativa documentada 8. Confundir correlação com causalidade 9. Generalizar conclusões além do escopo dos dados 10. Não verificar os pressupostos do modelo de regressão ::: ------------------------------------------------------------------------ ## O que vem a seguir Esta é a versão 1 da apostila. Os módulos planejados para as próximas versões são: ::: callout-tip ## Versão 2 - em construção **Análise multivariada** - PCA (Análise de Componentes Principais) - Análise de clusters (k-means e hierárquica) - Análise discriminante linear - Redução de dimensionalidade **Projetos com dados públicos brasileiros** - IBGE e SIDRA: população, PIB, saúde - Portal da Transparência: gastos públicos federais - DataSUS: indicadores de saúde - INEP: dados educacionais O objetivo desses módulos é conectar os métodos desta apostila a problemas reais do contexto brasileiro, tornando o aprendizado mais próximo da prática profissional e da pesquisa nacional. ::: ------------------------------------------------------------------------ *Esta apostila faz parte do projeto **Café com R**. É open source - use, estude e compartilhe.*