3  Introdução

3.1 Estatística descritiva - estatística inferencial

A estatística se divide em dois grandes ramos, que se complementam ao longo de qualquer análise:

Estatística descritiva organiza e resume dados de forma compreensível, por meio de tabelas, gráficos e medidas resumo. Seu objetivo é descrever as características do conjunto de dados sem fazer generalizações além do que foi observado.

Estatística inferencial permite generalizar conclusões sobre uma população com base em informações obtidas de uma amostra. Utiliza a teoria da probabilidade para estimar parâmetros populacionais e testar hipóteses.

A distinção é fundamental: descrever o que os dados mostram é diferente de concluir algo sobre o mundo a partir deles. Toda análise começa pela descrição e, quando o objetivo é generalização, avança para a inferência.

3.2 Por que usar o R?

O R é uma linguagem e ambiente de computação estatística criado especificamente para análise de dados. Suas vantagens práticas são:

  • Gratuito e de código aberto: qualquer pessoa pode instalar, usar, modificar e distribuir
  • Reproduzível: toda análise é documentada em código, podendo ser replicada exatamente
  • Extensível: mais de 20.000 pacotes disponíveis no CRAN, cobrindo desde análises básicas até modelos estatísticos avançados
  • Visualização de alta qualidade: o ggplot2 produz gráficos publicáveis com controle total sobre cada elemento
  • Comunidade ativa: fóruns, documentação e tutoriais em abundância
Mercado e pesquisa

O R é amplamente adotado em epidemiologia, ciências biológicas, econometria, ciências sociais e ciência de dados. O domínio da linguagem é um diferencial competitivo real, especialmente combinado com conhecimento estatístico sólido.

3.3 Conceitos fundamentais

3.3.1 População - amostra

População é o conjunto completo de todos os elementos de interesse em um estudo. Exemplo: todas as plantas de uma determinada espécie em uma região geográfica.

Amostra é um subconjunto representativo da população, selecionado para estudo. Exemplo: 100 plantas selecionadas aleatoriamente para medições.

A inferência estatística consiste em usar informações da amostra para tirar conclusões sobre a população. A representatividade da amostra é um pressuposto crítico: conclusões só são válidas se a amostra foi coletada adequadamente.

3.3.2 Parâmetro - estatística

Parâmetro é uma medida que descreve uma característica da população. Em geral, é desconhecido e representado por letras gregas: \(\mu\) para a média populacional, \(\sigma\) para o desvio padrão populacional.

Estatística é uma medida calculada a partir dos dados da amostra. É conhecida e representada por letras latinas: \(\bar{x}\) para a média amostral, \(s\) para o desvio padrão amostral.

A estatística amostral é usada como estimador do parâmetro populacional correspondente. Essa distinção orienta toda a lógica dos testes de hipótese: testamos o que observamos na amostra para inferir algo sobre o que não observamos na população.

3.3.3 Classificação de variáveis

A natureza das variáveis determina quais análises são apropriadas. Aplicar um teste desenvolvido para dados contínuos a uma variável ordinal, por exemplo, pode produzir resultados incorretos ou sem sentido.

Variáveis qualitativas (categóricas):

  • Nominal: sem ordem natural. Exemplos: cor, sexo, espécie, tratamento
  • Ordinal: com ordem natural. Exemplos: escolaridade, grau de dor, classificação

Variáveis quantitativas (numéricas):

  • Discreta: valores inteiros e contáveis. Exemplos: número de filhos, contagem de células
  • Contínua: qualquer valor em um intervalo. Exemplos: altura, peso, temperatura, absorção de CO₂
Atenção

Confundir o tipo de variável é um erro com consequências sérias: pode levar à escolha de testes inadequados, produzindo resultados incorretos ou sem sentido. Sempre verifique a classificação antes de escolher o método de análise.

3.4 O dataset CO2

3.4.1 Contexto experimental

O dataset CO2 é nativo do R e contém dados de um experimento sobre tolerância ao frio em plantas de Echinochloa crus-galli (capim-arroz). O experimento foi conduzido para investigar como a origem geográfica e o tratamento térmico afetam a capacidade fotossintética das plantas.

A taxa de absorção de CO₂ (uptake) é o indicador direto da atividade fotossintética: quanto maior a absorção, maior a intensidade da fotossíntese. Esse dataset é o fio condutor de todos os capítulos desta apostila.

3.4.2 Design experimental

Componente Descrição
Fator 1: Origem (Type) Quebec (clima frio) - Mississippi (clima quente)
Fator 2: Tratamento (Treatment) Resfriadas (chilled) - Não resfriadas (nonchilled)
Concentração (conc) 7 níveis: 95 a 1000 mL/L
Unidades experimentais 12 plantas (6 de cada origem)
Observações totais 84 (12 plantas × 7 concentrações)
Variável resposta Absorção de CO₂ (uptake) em μmol/m²s

3.4.3 Hipóteses científicas do experimento

Com base no conhecimento prévio sobre adaptações climáticas, espera-se que:

  1. Plantas de Quebec tenham desenvolvido maior tolerância ao resfriamento, por estarem naturalmente adaptadas a invernos rigorosos
  2. O tratamento de resfriamento reduza a atividade fotossintética em ambas as origens
  3. Maiores concentrações de CO₂ aumentem a taxa de absorção, até um ponto de saturação
  4. Exista interação entre origem e tratamento - o efeito do frio pode ser diferente para plantas de cada região

3.4.4 Carregamento e exploração inicial

library(tidyverse)

data("CO2")

# Estrutura: tipos de variáveis, número de observações e primeiros valores
str(CO2)
Classes 'nfnGroupedData', 'nfGroupedData', 'groupedData' and 'data.frame':  84 obs. of  5 variables:
 $ Plant    : Ord.factor w/ 12 levels "Qn1"<"Qn2"<"Qn3"<..: 1 1 1 1 1 1 1 2 2 2 ...
 $ Type     : Factor w/ 2 levels "Quebec","Mississippi": 1 1 1 1 1 1 1 1 1 1 ...
 $ Treatment: Factor w/ 2 levels "nonchilled","chilled": 1 1 1 1 1 1 1 1 1 1 ...
 $ conc     : num  95 175 250 350 500 675 1000 95 175 250 ...
 $ uptake   : num  16 30.4 34.8 37.2 35.3 39.2 39.7 13.6 27.3 37.1 ...
 - attr(*, "formula")=Class 'formula'  language uptake ~ conc | Plant
  .. ..- attr(*, ".Environment")=<environment: R_EmptyEnv> 
 - attr(*, "outer")=Class 'formula'  language ~Treatment * Type
  .. ..- attr(*, ".Environment")=<environment: R_EmptyEnv> 
 - attr(*, "labels")=List of 2
  ..$ x: chr "Ambient carbon dioxide concentration"
  ..$ y: chr "CO2 uptake rate"
 - attr(*, "units")=List of 2
  ..$ x: chr "(uL/L)"
  ..$ y: chr "(umol/m^2 s)"
# Primeiras observações
head(CO2, n = 10)
Plant Type Treatment conc uptake
Qn1 Quebec nonchilled 95 16.0
Qn1 Quebec nonchilled 175 30.4
Qn1 Quebec nonchilled 250 34.8
Qn1 Quebec nonchilled 350 37.2
Qn1 Quebec nonchilled 500 35.3
Qn1 Quebec nonchilled 675 39.2
Qn1 Quebec nonchilled 1000 39.7
Qn2 Quebec nonchilled 95 13.6
Qn2 Quebec nonchilled 175 27.3
Qn2 Quebec nonchilled 250 37.1
# Resumo estatístico de todas as variáveis
summary(CO2)
     Plant             Type         Treatment       conc          uptake     
 Qn1    : 7   Quebec     :42   nonchilled:42   Min.   :  95   Min.   : 7.70  
 Qn2    : 7   Mississippi:42   chilled   :42   1st Qu.: 175   1st Qu.:17.90  
 Qn3    : 7                                    Median : 350   Median :28.30  
 Qc1    : 7                                    Mean   : 435   Mean   :27.21  
 Qc3    : 7                                    3rd Qu.: 675   3rd Qu.:37.12  
 Qc2    : 7                                    Max.   :1000   Max.   :45.50  
 (Other):42                                                                  
# Dimensões e tipos de cada variável
dim(CO2)
[1] 84  5
sapply(CO2, class)
$Plant
[1] "ordered" "factor" 

$Type
[1] "factor"

$Treatment
[1] "factor"

$conc
[1] "numeric"

$uptake
[1] "numeric"
Conceito

A função str() é o primeiro passo obrigatório ao carregar qualquer dataset. Ela revela o tipo de cada variável, o número de observações e os primeiros valores - informações essenciais antes de qualquer análise.