A modelagem usando aprendizado de máquina existe devido à incerteza. Se pudéssemos mapear perfeitamente as entradas em relação às saídas, não haveria necessidade de modelos. Porém, os dados do mundo real são confusos, incompletos e ruidosos. Por isso, modelamos probabilidades em vez de certezas. O aprendizado sobre probabilidades estabelece os fundamentos de tudo o que é aprendizado de máquina e inteligência artificial (IA). As teorias de probabilidades nos permitem entender os dados que costumávamos modelar de uma forma bonita e elegante. Ela desempenha um papel crítico nas incertezas de modelagem nas previsões dos modelos de ML. Ela nos ajuda a quantificar a probabilidade e as certezas de um modelo estatístico, para que possamos medir com confiança os modelos de resultados que criamos. Mergulhar no mundo das probabilidades e aprender os fundamentos ajudarão a garantir que você entenda a base de todos os modelos de aprendizado estatístico e como suas previsões chegam a ser feitas. Você aprenderá como podemos fazer inferências e produzir resultados probabilísticos.
Para aprender distribuições populares e modelar seus dados com confiança, vamos chegar ao básico e esclarecer algumas terminologias.
Variável aleatória: uma representação numérica de um resultado de um fenômeno aleatório. É uma variável cujos valores possíveis são resultados numéricos de um processo aleatório.
Variável aleatória discreta: uma variável aleatória que pode assumir um número finito ou infinito contável de valores distintos. Por exemplo, o resultado de um lançamento de moeda (cara = 1, coroa = 0) ou o número de e-mails de spam recebidos em uma hora.
Variável aleatória contínua: uma variável aleatória que pode assumir qualquer valor dentro de um determinado intervalo. Por exemplo, a altura de uma pessoa, a temperatura em uma sala ou a quantidade de chuva.
Evento: um conjunto de um ou mais resultados de um processo aleatório. Por exemplo, aparecer um número par no lançamento de um dado (resultados: 2, 4, 6) ou a rotatividade de clientes.
Resultado: um único resultado possível de um experimento aleatório. Por exemplo, o lançamento de uma moeda produz "cara" ou "coroa".
Probabilidade : uma medida numérica da probabilidade de que um evento ocorrerá, variando de 0 (impossível) a 1 (certo).
Probabilidade condicional : a probabilidade do evento ocorrer, dado que o evento já ocorreu. Essa etapa é crucial no ML, pois muitas vezes queremos prever um resultado com base em funcionalidades específicas.
Probabilidade é uma medida de o quanto é provável que evento aconteça, de 0 (impossível) a 1 (certo).
No aprendizado de máquina, isso muitas vezes assume a forma de probabilidade condicional
Exemplo: um modelo de regressão logística pode dizer
> "Dada idade = 45, renda = US$ 60 mil e histórico anterior,
> a probabilidade de rotatividade é de 0,82.”
Esse exemplo não significa que o cliente irá embora — é uma crença baseada nos padrões estatísticos nos dados de treinamento.
Na era moderna da IA generativa, os modelos probabilísticos, como a regressão logística, desempenham um papel enorme na determinação dos resultados e produções de um modelo. Esse papel frequentemente assume a forma de uma função de ativação nas camadas das redes neurais.