3 Introdução

3.1 Estatística descritiva - estatística inferencial

A estatística se divide em dois grandes ramos, que se complementam ao longo de qualquer análise:

Estatística descritiva organiza e resume dados de forma compreensível, por meio de tabelas, gráficos e medidas resumo. Seu objetivo é descrever as características do conjunto de dados sem fazer generalizações além do que foi observado.

Estatística inferencial permite generalizar conclusões sobre uma população com base em informações obtidas de uma amostra. Utiliza a teoria da probabilidade para estimar parâmetros populacionais e testar hipóteses.

A distinção é fundamental: descrever o que os dados mostram é diferente de concluir algo sobre o mundo a partir deles. Toda análise começa pela descrição e, quando o objetivo é generalização, avança para a inferência.

3.2 Por que usar o R?

O R é uma linguagem e ambiente de computação estatística criado especificamente para análise de dados. Suas vantagens práticas são:

Gratuito e de código aberto: qualquer pessoa pode instalar, usar, modificar e distribuir
Reproduzível: toda análise é documentada em código, podendo ser replicada exatamente
Extensível: mais de 20.000 pacotes disponíveis no CRAN, cobrindo desde análises básicas até modelos estatísticos avançados
Visualização de alta qualidade: o ggplot2 produz gráficos publicáveis com controle total sobre cada elemento
Comunidade ativa: fóruns, documentação e tutoriais em abundância

Mercado e pesquisa

O R é amplamente adotado em epidemiologia, ciências biológicas, econometria, ciências sociais e ciência de dados. O domínio da linguagem é um diferencial competitivo real, especialmente combinado com conhecimento estatístico sólido.

3.3 Conceitos fundamentais

3.3.1 População - amostra

População é o conjunto completo de todos os elementos de interesse em um estudo. Exemplo: todas as plantas de uma determinada espécie em uma região geográfica.

Amostra é um subconjunto representativo da população, selecionado para estudo. Exemplo: 100 plantas selecionadas aleatoriamente para medições.

A inferência estatística consiste em usar informações da amostra para tirar conclusões sobre a população. A representatividade da amostra é um pressuposto crítico: conclusões só são válidas se a amostra foi coletada adequadamente.

3.3.2 Parâmetro - estatística

Parâmetro é uma medida que descreve uma característica da população. Em geral, é desconhecido e representado por letras gregas: \(\mu\) para a média populacional, \(\sigma\) para o desvio padrão populacional.

Estatística é uma medida calculada a partir dos dados da amostra. É conhecida e representada por letras latinas: \(\bar{x}\) para a média amostral, \(s\) para o desvio padrão amostral.

A estatística amostral é usada como estimador do parâmetro populacional correspondente. Essa distinção orienta toda a lógica dos testes de hipótese: testamos o que observamos na amostra para inferir algo sobre o que não observamos na população.

3.3.3 Classificação de variáveis

A natureza das variáveis determina quais análises são apropriadas. Aplicar um teste desenvolvido para dados contínuos a uma variável ordinal, por exemplo, pode produzir resultados incorretos ou sem sentido.

Variáveis qualitativas (categóricas):

Nominal: sem ordem natural. Exemplos: cor, sexo, espécie, tratamento
Ordinal: com ordem natural. Exemplos: escolaridade, grau de dor, classificação

Variáveis quantitativas (numéricas):

Discreta: valores inteiros e contáveis. Exemplos: número de filhos, contagem de células
Contínua: qualquer valor em um intervalo. Exemplos: altura, peso, temperatura, absorção de CO₂

Atenção

Confundir o tipo de variável é um erro com consequências sérias: pode levar à escolha de testes inadequados, produzindo resultados incorretos ou sem sentido. Sempre verifique a classificação antes de escolher o método de análise.

3.4 O dataset CO2

3.4.1 Contexto experimental

O dataset CO2 é nativo do R e contém dados de um experimento sobre tolerância ao frio em plantas de Echinochloa crus-galli (capim-arroz). O experimento foi conduzido para investigar como a origem geográfica e o tratamento térmico afetam a capacidade fotossintética das plantas.

A taxa de absorção de CO₂ (uptake) é o indicador direto da atividade fotossintética: quanto maior a absorção, maior a intensidade da fotossíntese. Esse dataset é o fio condutor de todos os capítulos desta apostila.

3.4.2 Design experimental

Componente	Descrição
Fator 1: Origem (`Type`)	Quebec (clima frio) - Mississippi (clima quente)
Fator 2: Tratamento (`Treatment`)	Resfriadas (`chilled`) - Não resfriadas (`nonchilled`)
Concentração (`conc`)	7 níveis: 95 a 1000 mL/L
Unidades experimentais	12 plantas (6 de cada origem)
Observações totais	84 (12 plantas × 7 concentrações)
Variável resposta	Absorção de CO₂ (`uptake`) em μmol/m²s

3.4.3 Hipóteses científicas do experimento

Com base no conhecimento prévio sobre adaptações climáticas, espera-se que:

Plantas de Quebec tenham desenvolvido maior tolerância ao resfriamento, por estarem naturalmente adaptadas a invernos rigorosos
O tratamento de resfriamento reduza a atividade fotossintética em ambas as origens
Maiores concentrações de CO₂ aumentem a taxa de absorção, até um ponto de saturação
Exista interação entre origem e tratamento - o efeito do frio pode ser diferente para plantas de cada região

3.4.4 Carregamento e exploração inicial

library(tidyverse)

data("CO2")

# Estrutura: tipos de variáveis, número de observações e primeiros valores
str(CO2)

Classes 'nfnGroupedData', 'nfGroupedData', 'groupedData' and 'data.frame':  84 obs. of  5 variables:
 $ Plant    : Ord.factor w/ 12 levels "Qn1"<"Qn2"<"Qn3"<..: 1 1 1 1 1 1 1 2 2 2 ...
 $ Type     : Factor w/ 2 levels "Quebec","Mississippi": 1 1 1 1 1 1 1 1 1 1 ...
 $ Treatment: Factor w/ 2 levels "nonchilled","chilled": 1 1 1 1 1 1 1 1 1 1 ...
 $ conc     : num  95 175 250 350 500 675 1000 95 175 250 ...
 $ uptake   : num  16 30.4 34.8 37.2 35.3 39.2 39.7 13.6 27.3 37.1 ...
 - attr(*, "formula")=Class 'formula'  language uptake ~ conc | Plant
  .. ..- attr(*, ".Environment")=<environment: R_EmptyEnv> 
 - attr(*, "outer")=Class 'formula'  language ~Treatment * Type
  .. ..- attr(*, ".Environment")=<environment: R_EmptyEnv> 
 - attr(*, "labels")=List of 2
  ..$ x: chr "Ambient carbon dioxide concentration"
  ..$ y: chr "CO2 uptake rate"
 - attr(*, "units")=List of 2
  ..$ x: chr "(uL/L)"
  ..$ y: chr "(umol/m^2 s)"

# Primeiras observações
head(CO2, n = 10)

Plant	Type	Treatment	conc	uptake
Qn1	Quebec	nonchilled	95	16.0
Qn1	Quebec	nonchilled	175	30.4
Qn1	Quebec	nonchilled	250	34.8
Qn1	Quebec	nonchilled	350	37.2
Qn1	Quebec	nonchilled	500	35.3
Qn1	Quebec	nonchilled	675	39.2
Qn1	Quebec	nonchilled	1000	39.7
Qn2	Quebec	nonchilled	95	13.6
Qn2	Quebec	nonchilled	175	27.3
Qn2	Quebec	nonchilled	250	37.1

# Resumo estatístico de todas as variáveis
summary(CO2)

     Plant             Type         Treatment       conc          uptake     
 Qn1    : 7   Quebec     :42   nonchilled:42   Min.   :  95   Min.   : 7.70  
 Qn2    : 7   Mississippi:42   chilled   :42   1st Qu.: 175   1st Qu.:17.90  
 Qn3    : 7                                    Median : 350   Median :28.30  
 Qc1    : 7                                    Mean   : 435   Mean   :27.21  
 Qc3    : 7                                    3rd Qu.: 675   3rd Qu.:37.12  
 Qc2    : 7                                    Max.   :1000   Max.   :45.50  
 (Other):42

# Dimensões e tipos de cada variável
dim(CO2)

[1] 84  5

sapply(CO2, class)

$Plant
[1] "ordered" "factor" 

$Type
[1] "factor"

$Treatment
[1] "factor"

$conc
[1] "numeric"

$uptake
[1] "numeric"

Conceito

A função str() é o primeiro passo obrigatório ao carregar qualquer dataset. Ela revela o tipo de cada variável, o número de observações e os primeiros valores - informações essenciais antes de qualquer análise.