O que é aprendizado de máquina estatístico?

Autores

Fangfang Lee

Developer Advocate

IBM

Aprendizado de máquina estatístico

Introdução: o que é pensamento estatístico no aprendizado de máquina?

Na era moderna da IA generativa, vemos profissionais construindo modelos de aprendizado de máquina (ML) a partir de regressões lineares simples a redes neurais complexas e sofisticadas e grandes modelos de linguagem generativos (LLMs). Também vemos ciência de dados onipresente e análise de dados feitas para prever a rotatividade de clientes, sistemas de recomendação e outros casos de uso. No entanto, embora os modelos de aprendizado de máquina (ML) possam parecer executados com um enorme conjunto de dados e algoritmos poderosos, nos detalhes técnicos, eles são fundamentalmente um processo estatístico.

O aprendizado de máquina se baseia em técnicas estatísticas e ferramentas matemáticas, incluindo métodos bayesianos, álgebra linear e estratégias de validação, que dão estrutura e rigor ao processo. Quer seja criando um classificador não linear, ajustando um sistema de recomendação ou desenvolvendo um modelo generativo em Python, você está aplicando os princípios fundamentais do aprendizado de máquina estatístico.

Sempre que você treina um modelo, você está estimando parâmetros a partir de dados. Ao testá-lo, você está se perguntando: esse padrão é real ou apenas ruído aleatório? Como podemos quantificar erros usando métricas de avaliação? Essas são questões estatísticas. O processo de testes estatísticos nos ajuda a integrar confiança na construção e na interpretação das métricas do modelo. Entender esses pré-requisitos não é apenas fundamental, é essencial para construir sistemas de IA robustos e interpretáveis baseados em ciência da computação e raciocínio matemático.

Este artigo analisa os pilares estatísticos por trás do ML moderno, não só para desmistificar a matemática, mas para equipar você com os modelos mentais necessários para criar, depurar e interpretar sistemas de aprendizado de máquina com confiança.

Analisaremos seis conceitos interligados:

1. Estatística: fundamentalmente, o que é estatística e como ela é usada na IA moderna?

2. Probabilidade: como quantificamos a incerteza nos dados?

3. Distribuições: como modelar o comportamento dos dados?

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

O que é estatística?

Estatística é a ciência de extrair insights de dados. Ela organiza, analisa e interpreta informações para descobrir padrões e tomar decisões sob incerteza. No contexto da ciência de dados e dos algoritmos de aprendizado de máquina, a estatística fornece a base matemática para entender o comportamento dos dados, orientar as escolhas de modelos e avaliar os resultados. Ela transforma conjuntos de dados confusos e barulhentos em inteligência praticável.

O aprendizado de máquina moderno é desenvolvido com base em métodos estatísticos. Quer você esteja aplicando aprendizado supervisionado (por exemplo, regressão ou classificação), aprendizado não supervisionado (por exemplo, agrupamento) ou aprendizado por reforço, você está usando ferramentas enraizadas na inferência estatística. A estatística nos permite quantificar a incerteza, generalizar a partir de amostras e tirar conclusões sobre populações mais amplas. Tudo isso é essencial para desenvolver sistemas confiáveis de inteligência artificial (IA).

Estatística descritiva: noções básicas

Antes de treinar os modelos, realizamos a análise exploratória de dados (EDA), um processo que se baseia em estatística descritiva para resumir as principais características dos dados. Esses resumos nos informam sobre a tendência central e a variabilidade de cada funcionalidade, ajudando a identificar valores discrepantes, problemas de qualidade de dados e necessidades de pré-processamento. Compreender essas propriedades é um pré-requisito para criar modelos eficazes e escolher algoritmos de aprendizado de máquina apropriados.

Principais medidas:

    • Média (média):

    A média aritmética dos valores. Comum na medição da centralidade e em funções de perda, como erro quadrático médio (MSE).

    Exemplo: se os valores de compra do cliente estão aumentando, a média detecta mudanças no comportamento.

    • Mediana:

    O valor intermediário quando os dados são classificados. Mais robusto para valores discrepantes do que para a média.

    Exemplo: em dados de renda, a mediana reflete melhor um caso "típico" na presença de riqueza distorcida.

    • Moda:

    O valor que ocorre com mais frequência. Útil para funcionalidades categóricas ou votação de maioria (como em alguns métodos de conjunto).

    Exemplo: encontrar o navegador mais usado pelos visitantes do site.

    • Desvio padrão (SD):

    Mede o quanto os valores estão dispersos em relação à média. Um SD baixo implica que os pontos de dados estão agrupados perto da média, enquanto um SD alto indica maior variabilidade.

    Exemplo: na validação do modelo, uma funcionalidade com alta variância pode precisar de normalização para evitar sobrecarregar outras em algoritmos baseados em distância, como k vizinhos mais próximos.

    • Intervalo interquartil (IQR):

    O intervalo entre o 75o. e o 25o. percentis (Q3 - Q1). Captura os 50% do meio dos dados e é útil para detectar valores discrepantes.

    Exemplo: em uma tarefa de segmentação de clientes, um alto IQR nos gastos pode indicar um comportamento inconsistente entre os subgrupos.

    • Inclinação:

    Indica a assimetria de uma distribuição. Uma inclinação positiva significa uma extremidade direita mais longa, enquanto uma inclinação negativa significa uma extremidade esquerda mais longa. Funcionalidades distorcidas podem violar suposições de modelos lineares ou inflar métricas baseadas na média.

    Exemplo: distribuições assimétricas à direita (como renda) podem exigir transformação logarítmica antes de aplicar regressão linear.

    • Curtose:

    Descreve o "encaudamento" da distribuição, ou seja, qual é a probabilidade de valores extremos. Alta curtose implica valores discrepantes mais frequentes, enquanto baixa curtose significa uma distribuição mais plana.

    Exemplo: na detecção de fraudes, alta curtose nos valores das transações pode sinalizar padrões de gastos anormais.

    Essas medidas também orientam decisões de pré-processamento, como normalização, padronização ou imputação, e afetam a forma como projetamos novas funcionalidades.

    Estatística descritiva no aprendizado de máquina

    Durante a EDA, a estatística descritiva nos ajuda a:

    • Avaliar as distribuições de dados: as variáveis são gaussianas? Inclinadas? Multimodais?
    • Identificar valores discrepantes e erros: uma incompatibilidade entre média e mediana pode sinalizar valores incomuns.
    • Descobrir problemas de qualidade de dados: por exemplo, detectar idades negativas ou categorias impossíveis.
    • Auxiliar na seleção de modelos: uma variável-alvo contínua sugere regressão; uma categórica, classificação. As relações entre funcionalidades (por exemplo, correlação) também podem influenciar o uso de métodos lineares, não paramétricos ou baseados em kernel.

    A compreensão dos dados com a estatística também ajuda a preparar os modelos para lidar com grandes conjuntos de dados, avaliar as métricas do modelo e mitigar riscos, como overfitting. Por exemplo, resumos descritivos podem revelar classes desequilibradas ou escalas de funcionalidades que requerem normalização, o que afeta o desempenho e a justiça do modelo.

    Mixture of Experts | 12 de dezembro, episódio 85

    Decodificando a IA: resumo semanal das notícias

    Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

    Probabilidades: a linguagem da incerteza

    A modelagem usando aprendizado de máquina existe devido à incerteza. Se pudéssemos mapear perfeitamente as entradas em relação às saídas, não haveria necessidade de modelos. Porém, os dados do mundo real são confusos, incompletos e ruidosos. Por isso, modelamos probabilidades em vez de certezas. O aprendizado sobre probabilidades estabelece os fundamentos de tudo o que é aprendizado de máquina e inteligência artificial (IA). As teorias de probabilidades nos permitem entender os dados que costumávamos modelar de uma forma bonita e elegante. Ela desempenha um papel crítico nas incertezas de modelagem nas previsões dos modelos de ML. Ela nos ajuda a quantificar a probabilidade e as certezas de um modelo estatístico, para que possamos medir com confiança os modelos de resultados que criamos. Mergulhar no mundo das probabilidades e aprender os fundamentos ajudarão a garantir que você entenda a base de todos os modelos de aprendizado estatístico e como suas previsões chegam a ser feitas. Você aprenderá como podemos fazer inferências e produzir resultados probabilísticos.

    Para aprender distribuições populares e modelar seus dados com confiança, vamos chegar ao básico e esclarecer algumas terminologias.

    Variável aleatória: uma representação numérica de um resultado de um fenômeno aleatório. É uma variável cujos valores possíveis são resultados numéricos de um processo aleatório.

    Variável aleatória discreta: uma variável aleatória que pode assumir um número finito ou infinito contável de valores distintos. Por exemplo, o resultado de um lançamento de moeda (cara = 1, coroa = 0) ou o número de e-mails de spam recebidos em uma hora.

    Variável aleatória contínua: uma variável aleatória que pode assumir qualquer valor dentro de um determinado intervalo. Por exemplo, a altura de uma pessoa, a temperatura em uma sala ou a quantidade de chuva.

    Evento: um conjunto de um ou mais resultados de um processo aleatório. Por exemplo, aparecer um número par no lançamento de um dado (resultados: 2, 4, 6) ou a rotatividade de clientes.

    Resultado: um único resultado possível de um experimento aleatório. Por exemplo, o lançamento de uma moeda produz "cara" ou "coroa".

    Probabilidade P(A) : uma medida numérica da probabilidade de que um evento A ocorrerá, variando de 0 (impossível) a 1 (certo).

    Probabilidade condicional P(A|B): a probabilidade do evento A ocorrer, dado que o evento A já ocorreu. Essa etapa é crucial no ML, pois muitas vezes queremos prever um resultado com base em funcionalidades específicas.

    Probabilidade é uma medida de o quanto é provável que evento aconteça, de 0 (impossível) a 1 (certo).

    No aprendizado de máquina, isso muitas vezes assume a forma de probabilidade condicional

    Exemplo: um modelo de regressão logística pode dizer

    > "Dada idade = 45, renda = US$ 60 mil e histórico anterior,

    > a probabilidade de rotatividade é de 0,82.”

    Esse exemplo não significa que o cliente irá embora — é uma crença baseada nos padrões estatísticos nos dados de treinamento.

    Na era moderna da IA generativa, os modelos probabilísticos, como a regressão logística, desempenham um papel enorme na determinação dos resultados e produções de um modelo. Esse papel frequentemente assume a forma de uma função de ativação nas camadas das redes neurais.

    Distribuições: modelagem de como os dados se comportam

    Uma distribuição de probabilidades é uma função matemática que descreve os possíveis valores e probabilidades que uma variável aleatória pode assumir dentro de um determinado intervalo. Compreender as distribuições é crucial no ML porque os dados raramente existem como pontos únicos e isolados; eles têm uma estrutura e uma "forma". Algumas terminologias que precisamos especificar são:

    • Distribuição discreta: aplica-se a variáveis que assumem valores distintos e contáveis (por exemplo, cara ou coroa, contagem de palavras).
    • Distribuição contínua: aplica-se a variáveis que podem assumir qualquer valor dentro de um intervalo (por exemplo, altura, peso, tempo).

    Conceitos básicos

    • Função massa de probabilidade (PMF): a PMF aplica-se a variáveis aleatórias discretas — variáveis que assumem valores contáveis e distintos, como 0 ou 1, cara ou coroa ou o número de clientes que chegam em uma loja. A PMF informa a probabilidade exata de cada resultado possível. Por exemplo, se você lançar um dado justo de seis lados, a PMF atribui uma probabilidade de 1/6 a cada um dos resultados 1,2,3,4,5,6. Ao contrário da PDF (que espalha a densidade de probabilidades em um intervalo), a PMF concentra a probabilidade em valores exatos.
    • Função de densidade de probabilidade (PDF): ajuda a raciocinar sobre percentis, quantis e limites de probabilidade — conceitos frequentemente usados em modelos de limitação, auditoria de equidade e interpretabilidade.
    • Função de distribuição cumulativa (CDF): a CDF fornece a probabilidade cumulativa de que um valor seja menor ou igual a um limite específico. Ela cresce de 0 para 1 à medida que você se move ao longo do eixo x e é especialmente útil para responder a perguntas como: "Qual proporção dos clientes gasta menos de US$ 50?"
    • Função massa cumulativa (CMF): a CMF é a contraparte discreta da CDF. Fornece a probabilidade cumulativa de que uma variável discreta assuma um valor menor ou igual a um ponto específico.

    Fazer as suposições corretas sobre a distribuição de seus dados é crítico — muitos algoritmos de aprendizado de máquina dependem dessas suposições para a seleção e interpretação do modelo. Suposições incorretas podem levar a estimativas com viés, funções de perda desalinhadas e, em última análise, generalização ruim ou conclusões inválidas em aplicações do mundo real.

    As distribuições de probabilidades sustentam:

    • Modelagem de erros: suposições sobre resíduos em regressão (muitas vezes, gaussiana).
    • Funções de perda: o MSE corresponde aos parâmetros gaussianos; entropia cruzada com Bernoulli ou logística.
    • Projeto do modelo: os alvos de classificação são frequentemente modelados por meio de Bernoulli; as variáveis latentes em modelos generativos profundos utilizam priores gaussianas.
    • IA generativa: a amostragem a partir de distribuições de alta dimensão aprendidas é fundamental para modelos como redes adversárias generativas (GANs) e VAEs.

    Exemplo de distribuição discreta: ensaios de Bernoulli

    A distribuição de Bernoulli modela a probabilidade de sucesso ou fracasso em uma única tentativa de um evento aleatório discreto. Ou seja, ela tem apenas dois resultados: 1 (sucesso) ou 0 (falha). É o tipo mais simples de distribuição usado em estatística, mas forma a base de muitos problemas de classificação no aprendizado de máquina. Por exemplo, se você fosse lançar uma moeda 10 vezes e obtiver 7 caras (sucesso) e 3 coroas (falha), a função massa de probabilidade (PMF) pode ser representada da seguinte forma:

    Distribuição de lançamentos de moeda - gráfico de barras

    O lançamento de moeda é um ensaio de Bernoulli clássico. Vamos aplicar a função massa de probabilidade ao exemplo de lançamento de moeda.

    - Seja X uma variável aleatória que representa o resultado de um lançamento

    - Se cara é considerado sucesso, definimos X=1 para cara e X=0 para coroa

    - Se a moeda for justa, a probabilidade de cara é p=0.5

    A função massa de probabilidade (PMF) da distribuição de Bernoulli é:

     P(X=x)=px(1-p)1-x,forx{0,1}

    Distribuição de Bernoulli - gráfico de pirulito

    Onde:

    • p é a probabilidade de sucesso (X=1)
    • 1 - p é a probabilidade de falha (X=0)
    • x é o resultado observado (1 ou 0)

     

    Aplicação ao aprendizado de máquina: distribuição discreta

    É essencial entender a PMF de Bernoulli, pois ela forma a espinha dorsal probabilística de muitos modelos de classificação. Em particular, a regressão logística não produz apenas um rótulo de classe, mas estima a probabilidade de que uma entrada específica pertença à classe 1. Essa probabilidade prevista é interpretada como o parâmetro 𝑝 em uma distribuição de Bernoulli:

    A função logística (sigmoide) usada na regressão logística garante que os valores previstos estejam dentro do intervalo [0,1], tornando-os probabilidades de Bernoulli válidas. O modelo é treinado para maximizar a probabilidade de observar os resultados binários verdadeiros sob a suposição de que cada valor-alvo seja extraído de uma distribuição de Bernoulli com probabilidade 𝑝 prevista a partir de funcionalidades 𝑋. Nesse caso, como queremos minimizar a perda de treinamento, adotamos uma abordagem de estimativa de máxima verossimilhança (MLE) para maximizar a probabilidade de um resultado, considerando-se os dados. Normalmente, para uma distribuição discreta como a de Bernoulli, transformamos probabilidade em verossimilhança para manipular com mais facilidade. A probabilidade, assim como a chance, é desproporcional; então, geralmente aplicamos uma transformação logarítmica, conhecida como probabilidade logarítmica, e a função de perda como perda logarítmica. Se esta seção parecer um pouco confusa, você pode visitar a explicação de regressão logística mencionada anteriormente para a derivação passo a passo da função log-verossimilhança usando MLE. Essa conexão fornece a base estatística para interpretar saídas como estimativas probabilísticas. Outras aplicações incluem:

    • Os classificadores binários (árvores de decisão, random forests, máquinas de vetores de suporte com resultados binários) tratam implicitamente a classificação como previsão de resultados de Bernoulli, especialmente quando a calibração de probabilidade é aplicada pós-treinamento.
    • Métricas de avaliação: precisão, recall e pontuação F1 são fundamentalmente derivados da suposição de que cada previsão é um evento binário (ensaio de Bernoulli).

    Exemplo de distribuição contínua: distribuição gaussiana (normal)

    A distribuição normal descreve uma variável aleatória contínua cujos valores tendem a se agrupar em torno de uma média central, com variabilidade simétrica em ambas as direções. Ela é onipresente nas estatísticas porque muitos fenômenos naturais (altura, pontuações de testes, erros de medição) seguem esse padrão, especialmente quando agregados em amostras.

     

    Distribuição normal - curva de sino

    Imagine que você registra as alturas de 1.000 adultos. O gráfico desses dados revela uma curva em forma de sino: a maioria das pessoas está próxima da média, com menos nos extremos. Essa forma é capturada pela função de densidade de probabilidade (PDF) da distribuição normal:

     f(xμ,σ2)=12πσ2exp(-(x-μ)22σ2)

    Onde:

    • 𝑥 é uma variável contínua (por exemplo, altura)
    • 𝜇 é a média (centro da distribuição)
    •  σ2  a variância (controla a distribuição)
    • O denominador  2πσ2  garante que a soma da área sob a curva seja 1
    • O termo exponencial penaliza valores que estão longe da média, tornando-os menos prováveis

    Aplicações ao aprendizado de máquina: distribuição contínua

    • Regressão linear: pressupõe que os resíduos (erros) são distribuídos normalmente, o que justifica o uso do erro quadrático médio (MSE) como uma função de perda. Essa suposição possibilita que os modelos façam interpretações probabilísticas e facilitam a inferência estatística (por exemplo, intervalos de confiança, testes de hipóteses em coeficientes).
    • Modelos generativos: autocodificadores variacionais (VAEs), GANs e outros modelos generativos frequentemente assumem que as variáveis latentes seguem uma distribuição normal padrão. Novos dados são gerados por amostragem a partir desse espaço e transformados por meio de redes aprendidas.
    • Regularização: técnicas como a regularização L2 (também conhecida como regressão de ridge) penalizam os pesos grandes do modelo adicionando um termo proporcional ao quadrado dos pesos à função de perda. Esse termo de penalidade corresponde a assumir um prior gaussiano sobre os parâmetros do modelo — em termos bayesianos, é como se acreditássemos que os pesos são extraídos de uma distribuição normal centrada em zero. Esse princípio transforma a regularização em um problema de otimização enraizado na probabilidade, promovendo modelos mais simples e reduzindo o overfitting.

    Conclusão

    No núcleo de cada sistema de aprendizado de máquina reside uma espinha dorsal estatística, uma estrutura invisível que suporta tudo, desde o projeto do modelo até a interpretação. Começamos explorando o que a estatística realmente é: não apenas um ramo da matemática, mas uma linguagem para entender a incerteza e extrair significado dos dados. A estatística descritiva fornece as primeiras lentes através das quais examinamos e resumimos a complexidade do mundo, oferecendo clareza antes mesmo de a modelagem começar.

    Em seguida, mergulhamos na probabilidade, o conjunto de ferramentas formal para raciocinar sob incerteza. No aprendizado de máquina, as probabilidades nos ajudam a quantificar a possibilidade de um resultado, permitindo que os modelos expressem confiança em vez de apenas previsões rígidas. Quer seja a chance de uma rotatividade de clientes ou a probabilidade de um rótulo na classificação, a teoria da probabilidade transforma dados brutos em insights interpretáveis.

    Por fim, exploramos as distribuições, que definem como os dados se comportam em diferentes cenários. Desde a distribuição de Bernoulli discreta, que modela os resultados binários, até a distribuição gaussiana contínua, que molda nossas suposições em regressão e modelos generativos, é crucial entender essas distribuições. Elas sustentam tanto os dados que observamos quanto os algoritmos que construímos, orientando a escolha do modelo, moldando funções de perda e permitindo inferências significativas.

    Em algoritmos modernos de aprendizado de máquina, desde regressão logística e naïve Bayes até deep learning e métodos kernel, esses princípios estatísticos não são complementos opcionais — eles são a própria mecânica do aprendizado de máquina. Eles nos ajudam a raciocinar sobre a incerteza, otimizar o desempenho e generalizar a partir de observações limitadas para a tomada de decisão no mundo real. Dominando esses fundamentos, você não apenas aprende a usar o aprendizado de máquina, mas também a compreender, construir e extrair inferência dele.

    Mesmo na era da IA generativa e dos modelos de deep learning em larga escala, a estatística continua mais relevante do que nunca. Por trás de cada camada de transformador e etapa de difusão, reside um fundamento baseado em probabilidade, estimativa e suposições distributivas. Entender conceitos como a troca de viés-variância e a incerteza não é apenas acadêmico — é essencial para interpretar modelos de caixa-preta, diagnosticar modos de falha e construir uma IA responsável e explicável. Quer seja fazendo um ajuste fino de um modelo de base, aplicando técnicas bayesianas para quantificação da incerteza ou avaliando saídas generativas, o raciocínio estatístico oferece as ferramentas para navegar pela complexidade com clareza. À medida que os sistemas de IA generativa se tornam mais poderosos, fundamentar sua prática em fundamentos estatísticos garante que seus modelos permaneçam sendo não apenas de ponta, mas também baseados em princípios e confiáveis.

    Soluções relacionadas
    IBM watsonx.ai

    Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

    Conheça o watsonx.ai
    Soluções de inteligência artificial

    Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

    Explore as soluções de IA
    Consultoria e serviços em IA

    Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

    Explore os serviços de IA
    Dê o próximo passo

    Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

    Explore o watsonx.ai Agende uma demonstração em tempo real