A estatística se divide em dois grandes ramos, que se complementam ao longo de qualquer análise:
Estatística descritiva organiza e resume dados de forma compreensível, por meio de tabelas, gráficos e medidas resumo. Seu objetivo é descrever as características do conjunto de dados sem fazer generalizações além do que foi observado.
Estatística inferencial permite generalizar conclusões sobre uma população com base em informações obtidas de uma amostra. Utiliza a teoria da probabilidade para estimar parâmetros populacionais e testar hipóteses.
A distinção é fundamental: descrever o que os dados mostram é diferente de concluir algo sobre o mundo a partir deles. Toda análise começa pela descrição e, quando o objetivo é generalização, avança para a inferência.
3.2 Por que usar o R?
O R é uma linguagem e ambiente de computação estatística criado especificamente para análise de dados. Suas vantagens práticas são:
Gratuito e de código aberto: qualquer pessoa pode instalar, usar, modificar e distribuir
Reproduzível: toda análise é documentada em código, podendo ser replicada exatamente
Extensível: mais de 20.000 pacotes disponíveis no CRAN, cobrindo desde análises básicas até modelos estatísticos avançados
Visualização de alta qualidade: o ggplot2 produz gráficos publicáveis com controle total sobre cada elemento
Comunidade ativa: fóruns, documentação e tutoriais em abundância
Mercado e pesquisa
O R é amplamente adotado em epidemiologia, ciências biológicas, econometria, ciências sociais e ciência de dados. O domínio da linguagem é um diferencial competitivo real, especialmente combinado com conhecimento estatístico sólido.
3.3 Conceitos fundamentais
3.3.1 População - amostra
População é o conjunto completo de todos os elementos de interesse em um estudo. Exemplo: todas as plantas de uma determinada espécie em uma região geográfica.
Amostra é um subconjunto representativo da população, selecionado para estudo. Exemplo: 100 plantas selecionadas aleatoriamente para medições.
A inferência estatística consiste em usar informações da amostra para tirar conclusões sobre a população. A representatividade da amostra é um pressuposto crítico: conclusões só são válidas se a amostra foi coletada adequadamente.
3.3.2 Parâmetro - estatística
Parâmetro é uma medida que descreve uma característica da população. Em geral, é desconhecido e representado por letras gregas: \(\mu\) para a média populacional, \(\sigma\) para o desvio padrão populacional.
Estatística é uma medida calculada a partir dos dados da amostra. É conhecida e representada por letras latinas: \(\bar{x}\) para a média amostral, \(s\) para o desvio padrão amostral.
A estatística amostral é usada como estimador do parâmetro populacional correspondente. Essa distinção orienta toda a lógica dos testes de hipótese: testamos o que observamos na amostra para inferir algo sobre o que não observamos na população.
3.3.3 Classificação de variáveis
A natureza das variáveis determina quais análises são apropriadas. Aplicar um teste desenvolvido para dados contínuos a uma variável ordinal, por exemplo, pode produzir resultados incorretos ou sem sentido.
Variáveis qualitativas (categóricas):
Nominal: sem ordem natural. Exemplos: cor, sexo, espécie, tratamento
Ordinal: com ordem natural. Exemplos: escolaridade, grau de dor, classificação
Variáveis quantitativas (numéricas):
Discreta: valores inteiros e contáveis. Exemplos: número de filhos, contagem de células
Contínua: qualquer valor em um intervalo. Exemplos: altura, peso, temperatura, absorção de CO₂
Atenção
Confundir o tipo de variável é um erro com consequências sérias: pode levar à escolha de testes inadequados, produzindo resultados incorretos ou sem sentido. Sempre verifique a classificação antes de escolher o método de análise.
3.4 O dataset CO2
3.4.1 Contexto experimental
O dataset CO2 é nativo do R e contém dados de um experimento sobre tolerância ao frio em plantas de Echinochloa crus-galli (capim-arroz). O experimento foi conduzido para investigar como a origem geográfica e o tratamento térmico afetam a capacidade fotossintética das plantas.
A taxa de absorção de CO₂ (uptake) é o indicador direto da atividade fotossintética: quanto maior a absorção, maior a intensidade da fotossíntese. Esse dataset é o fio condutor de todos os capítulos desta apostila.
3.4.2 Design experimental
Componente
Descrição
Fator 1: Origem (Type)
Quebec (clima frio) - Mississippi (clima quente)
Fator 2: Tratamento (Treatment)
Resfriadas (chilled) - Não resfriadas (nonchilled)
Concentração (conc)
7 níveis: 95 a 1000 mL/L
Unidades experimentais
12 plantas (6 de cada origem)
Observações totais
84 (12 plantas × 7 concentrações)
Variável resposta
Absorção de CO₂ (uptake) em μmol/m²s
3.4.3 Hipóteses científicas do experimento
Com base no conhecimento prévio sobre adaptações climáticas, espera-se que:
Plantas de Quebec tenham desenvolvido maior tolerância ao resfriamento, por estarem naturalmente adaptadas a invernos rigorosos
O tratamento de resfriamento reduza a atividade fotossintética em ambas as origens
Maiores concentrações de CO₂ aumentem a taxa de absorção, até um ponto de saturação
Exista interação entre origem e tratamento - o efeito do frio pode ser diferente para plantas de cada região
3.4.4 Carregamento e exploração inicial
library(tidyverse)data("CO2")# Estrutura: tipos de variáveis, número de observações e primeiros valoresstr(CO2)
A função str() é o primeiro passo obrigatório ao carregar qualquer dataset. Ela revela o tipo de cada variável, o número de observações e os primeiros valores - informações essenciais antes de qualquer análise.
---title: "Introdução"---```{r setup, include=FALSE}knitr::opts_chunk$set(echo=TRUE, warning=FALSE, message=FALSE, fig.align="center", fig.width=9, fig.height=5.5)```## Estatística descritiva - estatística inferencialA estatística se divide em dois grandes ramos, que se complementam ao longo de qualquer análise:**Estatística descritiva** organiza e resume dados de forma compreensível, por meio de tabelas, gráficos e medidas resumo. Seu objetivo é descrever as características do conjunto de dados sem fazer generalizações além do que foi observado.**Estatística inferencial** permite generalizar conclusões sobre uma população com base em informações obtidas de uma amostra. Utiliza a teoria da probabilidade para estimar parâmetros populacionais e testar hipóteses.A distinção é fundamental: descrever o que os dados mostram é diferente de concluir algo sobre o mundo a partir deles. Toda análise começa pela descrição e, quando o objetivo é generalização, avança para a inferência.## Por que usar o R?O R é uma linguagem e ambiente de computação estatística criado especificamente para análise de dados. Suas vantagens práticas são:- **Gratuito e de código aberto**: qualquer pessoa pode instalar, usar, modificar e distribuir- **Reproduzível**: toda análise é documentada em código, podendo ser replicada exatamente- **Extensível**: mais de 20.000 pacotes disponíveis no CRAN, cobrindo desde análises básicas até modelos estatísticos avançados- **Visualização de alta qualidade**: o ggplot2 produz gráficos publicáveis com controle total sobre cada elemento- **Comunidade ativa**: fóruns, documentação e tutoriais em abundância::: callout-important## Mercado e pesquisaO R é amplamente adotado em epidemiologia, ciências biológicas, econometria, ciências sociais e ciência de dados. O domínio da linguagem é um diferencial competitivo real, especialmente combinado com conhecimento estatístico sólido.:::## Conceitos fundamentais### População - amostra**População** é o conjunto completo de todos os elementos de interesse em um estudo. Exemplo: todas as plantas de uma determinada espécie em uma região geográfica.**Amostra** é um subconjunto representativo da população, selecionado para estudo. Exemplo: 100 plantas selecionadas aleatoriamente para medições.A inferência estatística consiste em usar informações da amostra para tirar conclusões sobre a população. A representatividade da amostra é um pressuposto crítico: conclusões só são válidas se a amostra foi coletada adequadamente.### Parâmetro - estatística**Parâmetro** é uma medida que descreve uma característica da **população**. Em geral, é desconhecido e representado por letras gregas: $\mu$ para a média populacional, $\sigma$ para o desvio padrão populacional.**Estatística** é uma medida calculada a partir dos dados da **amostra**. É conhecida e representada por letras latinas: $\bar{x}$ para a média amostral, $s$ para o desvio padrão amostral.A estatística amostral é usada como **estimador** do parâmetro populacional correspondente. Essa distinção orienta toda a lógica dos testes de hipótese: testamos o que observamos na amostra para inferir algo sobre o que não observamos na população.### Classificação de variáveisA natureza das variáveis determina quais análises são apropriadas. Aplicar um teste desenvolvido para dados contínuos a uma variável ordinal, por exemplo, pode produzir resultados incorretos ou sem sentido.**Variáveis qualitativas (categóricas):**- *Nominal*: sem ordem natural. Exemplos: cor, sexo, espécie, tratamento- *Ordinal*: com ordem natural. Exemplos: escolaridade, grau de dor, classificação**Variáveis quantitativas (numéricas):**- *Discreta*: valores inteiros e contáveis. Exemplos: número de filhos, contagem de células- *Contínua*: qualquer valor em um intervalo. Exemplos: altura, peso, temperatura, absorção de CO₂::: callout-warning## AtençãoConfundir o tipo de variável é um erro com consequências sérias: pode levar à escolha de testes inadequados, produzindo resultados incorretos ou sem sentido. Sempre verifique a classificação antes de escolher o método de análise.:::## O dataset CO2### Contexto experimentalO dataset `CO2` é nativo do R e contém dados de um experimento sobre tolerância ao frio em plantas de *Echinochloa crus-galli* (capim-arroz). O experimento foi conduzido para investigar como a origem geográfica e o tratamento térmico afetam a capacidade fotossintética das plantas.A **taxa de absorção de CO₂** (`uptake`) é o indicador direto da atividade fotossintética: quanto maior a absorção, maior a intensidade da fotossíntese. Esse dataset é o fio condutor de todos os capítulos desta apostila.### Design experimental| Componente | Descrição ||------------------------------------|------------------------------------|| Fator 1: Origem (`Type`) | Quebec (clima frio) - Mississippi (clima quente) || Fator 2: Tratamento (`Treatment`) | Resfriadas (`chilled`) - Não resfriadas (`nonchilled`) || Concentração (`conc`) | 7 níveis: 95 a 1000 mL/L || Unidades experimentais | 12 plantas (6 de cada origem) || Observações totais | 84 (12 plantas × 7 concentrações) || Variável resposta | Absorção de CO₂ (`uptake`) em μmol/m²s |### Hipóteses científicas do experimentoCom base no conhecimento prévio sobre adaptações climáticas, espera-se que:1. Plantas de Quebec tenham desenvolvido maior tolerância ao resfriamento, por estarem naturalmente adaptadas a invernos rigorosos2. O tratamento de resfriamento reduza a atividade fotossintética em ambas as origens3. Maiores concentrações de CO₂ aumentem a taxa de absorção, até um ponto de saturação4. Exista interação entre origem e tratamento - o efeito do frio pode ser diferente para plantas de cada região### Carregamento e exploração inicial```{r dados_iniciais}library(tidyverse)data("CO2")# Estrutura: tipos de variáveis, número de observações e primeiros valoresstr(CO2)``````{r head}# Primeiras observaçõeshead(CO2, n =10)``````{r summary}# Resumo estatístico de todas as variáveissummary(CO2)``````{r dim}# Dimensões e tipos de cada variáveldim(CO2)sapply(CO2, class)```::: callout-note## ConceitoA função `str()` é o primeiro passo obrigatório ao carregar qualquer dataset. Ela revela o tipo de cada variável, o número de observações e os primeiros valores - informações essenciais antes de qualquer análise.:::