Aprendizagem supervisionada e não supervisionada: qual é a diferença?

Fractal parecendo uma sinapse com muitas terminações nervosas

Autora

Julianna Delua

SME, IBM Analytics, Data Science/Machine Learning

O mundo está ficando "mais inteligente" a cada dia e, para acompanhar as expectativas dos consumidores, as empresas estão usando cada vez mais algoritmos de aprendizado de máquina para facilitar as coisas. Você pode vê-los em uso nos dispositivos do usuário final (por meio de reconhecimento facial para liberar smartphones) ou para detectar fraudes de cartão de crédito (como o acionamento de alertas para compras incomuns).

Dentro da inteligência artificial (IA) e do aprendizado de máquina, existem duas abordagens básicas: aprendizado supervisionado e aprendizado não supervisionado. A principal diferença é que um usa dados rotulados para ajudar a prever os resultados, enquanto o outro não. No entanto, existem algumas nuances entre as duas abordagens e áreas-chave em que uma supera a outra. Esta publicação esclarece as diferenças para que você possa escolher a melhor abordagem para sua situação.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

O que é aprendizado supervisionado?

O aprendizado supervisionado é uma abordagem de aprendizado de máquina definida pelo uso de conjuntos de dados rotulados. Esses conjuntos de dados são projetados para treinar ou "supervisionar" algoritmos na classificação de dados ou na previsão de resultados com precisão. Usando entradas e saídas rotuladas, o modelo pode medir sua precisão e aprender ao longo do tempo.

O aprendizado supervisionado divide-se em dois tipos de problemas na mineração de dados: classificação e regressão.

  • Os problemas de classificação usam um algoritmo para atribuir dados de teste com precisão a categorias específicas, como separar maçãs de laranjas. Ou, no mundo real, algoritmos de aprendizado supervisionado podem ser usados para classificar o spam em uma pasta separada da sua caixa de entrada. Classificadores lineares, máquinas de vetores de suporte, árvores de decisão e floresta aleatória são tipos comuns de algoritmos de classificação.

  • Regressão é outro tipo de método de aprendizado supervisionado que usa um algoritmo para entender a relação entre variáveis dependentes e independentes. Os modelos de regressão são úteis para prever valores numéricos com base em diferentes pontos de dados, como projeções de receita de vendas de um determinado negócio. Alguns algoritmos de regressão populares são regressão linear, regressão logística e regressão polinomial.
AI Academy

Coloque a IA para trabalhar no serviço ao cliente

Veja como a IA generativa pode encantar os clientes com uma experiência mais integrada e aumentar a produtividade da organização nessas três áreas importantes: autoatendimento, agentes humanos e operações da central de contato.

O que é aprendizado não supervisionado?

O aprendizado não supervisionado usa algoritmos de aprendizado de máquina para analisar e agrupar conjuntos de dados não rotulados. Esses algoritmos descobrem padrões ocultos em dados sem a necessidade de intervenção humana (portanto, são "não supervisionados").

Modelos de aprendizado não supervisionado são usados para três tarefas principais: cluster, associação e redução de dimensionalidade:

  • Agrupamento é uma técnica de mineração de dados para agrupar dados não rotulados com base em suas semelhanças ou diferenças. Por exemplo, os algoritmos de cluster K-means atribuem pontos de dados semelhantes em grupos, onde o valor K representa o tamanho do agrupamento e da granularidade. Essa técnica é útil para segmentação de mercado, compactação de imagens e assim por diante.

  • A associação é outro tipo de método de aprendizado não supervisionado que usa regras diferentes para encontrar relações entre variáveis em um determinado conjunto de dados. Esses métodos são frequentemente usados em mecanismos de recomendação e análise de carrinhos de compras, na linha das recomendações "Clientes que compraram esse item também compraram".

  • A redução de dimensionalidade é uma técnica de aprendizado usada quando o número de funcionalidades (ou dimensões) em um determinado conjunto de dados é muito alto. Ela reduz o número de entradas de dados para um tamanho gerenciável e, ao mesmo tempo, preserva a integridade dos dados. Muitas vezes, essa técnica é usada no estágio de pré-processamento de dados, por exemplo, quando os codificadores automáticos removem ruído dos dados visuais para melhorar a qualidade da imagem.

A principal diferença: dados rotulados

A principal distinção entre as duas abordagens é o uso de conjuntos de dados rotulados. Simplificando, o aprendizado supervisionado usa dados rotulados de entrada e saída, enquanto um algoritmo de aprendizado não supervisionado não.

No aprendizado supervisionado, o algoritmo "aprende" com o conjunto de dados de treinamento, fazendo previsões iterativas sobre os dados e ajustando-se para a resposta correta. Embora os modelos de aprendizado supervisionado tendam a ser mais precisos do que os modelos de aprendizado não supervisionado, eles exigem intervenção humana inicial para rotular os dados adequadamente. Por exemplo, um modelo de aprendizado supervisionado pode prever quanto tempo seu deslocamento terá com base na hora do dia, nas condições climáticas e assim por diante. Mas, primeiro, é preciso treiná-lo para saber que o tempo chuvoso prolonga o tempo de condução.

Os modelos de aprendizado não supervisionado, por outro lado, trabalham por conta própria para descobrir a estrutura inerente dos dados não rotulados. Observe que eles ainda requerem alguma intervenção humana para validar variáveis de saída. Por exemplo, um modelo de aprendizado não supervisionado pode identificar que os compradores online frequentemente compram grupos de produtos ao mesmo tempo. No entanto, um analista de dados precisaria validar se faz sentido para um mecanismo de recomendação agrupar roupas de bebê com um pedido de fraldas, compota de maçã e copinhos.

Outras diferenças-chave

  • Objetivos: no aprendizado supervisionado, o objetivo é prever resultados para novos dados. Você sabe de antemão o tipo de resultado que esperar. Com um algoritmo de aprendizado não supervisionado, o objetivo é obter insights de grandes volumes de novos dados. O próprio aprendizado de máquina determina o que é diferente ou interessante no conjunto de dados.

  • Aplicações: os modelos de aprendizado supervisionado são ideais para detecção de spam, análise de sentimento, forecasting do tempo e preços, entre outras coisas. Por outro lado, o aprendizado não supervisionado é uma ótima opção para detecção de anomalias, mecanismos de recomendação, personas de clientes e imagens médicas.

  • Complexidade: o aprendizado supervisionado é um método simples de aprendizado de máquina, normalmente calculado por meio de programas como R ou Python. No aprendizado não supervisionado, você precisa de ferramentas poderosas para trabalhar com grandes quantidades de dados não classificados. Os modelos de aprendizado não supervisionado são computacionalmente complexos porque precisam de um grande conjunto de treinamento para produzir os resultados pretendidos.

  • Desvantagens: os modelos de aprendizado supervisionado podem ser demorados para treinar e os rótulos para variáveis de entrada e saída exigem experiência. Enquanto isso, métodos de aprendizado não supervisionado podem ter resultados extremamente imprecisos, a menos que você tenha intervenção humana para validar as variáveis de saída.

Aprendizado supervisionado versus não supervisionado: qual é o melhor para você?

A escolha da abordagem certa para sua situação depende de como seus cientistas de dados avaliam a estrutura e o volume de seus dados, bem como o caso de uso. Para tomar sua decisão, certifique-se de fazer o seguinte:

  • Avalie seus dados de entrada: são dados rotulados ou não rotulados? Você tem especialistas que podem oferecer suporte a rotulagem extra?

  • Defina suas metas: você tem um problema recorrente e bem definido para resolver? Ou o algoritmo precisará prever novos problemas?

  • Avalie suas opções de algoritmos: há algoritmos com a mesma dimensionalidade que você precisa (número de funcionalidades, atributos ou características)? Eles são compatíveis com seu volume e sua estrutura de dados?

A classificação de big data pode ser um verdadeiro desafio no aprendizado supervisionado, mas os resultados são altamente precisos e confiáveis. Por outro lado, o aprendizado não supervisionado pode lidar com grandes volumes de dados em tempo real. Porém, há uma falta de transparência sobre como os dados são agrupados e um risco maior de resultados imprecisos. É aqui que entra o aprendizado semissupervisionado.

Aprendizado semissupervisionado: o melhor dos dois mundos

Não consegue decidir se deseja usar aprendizado supervisionado ou não supervisionado? O aprendizado semissupervisionado é um meio termo, onde você usa um conjunto de dados de treinamento com dados rotulados e não rotulados. É particularmente útil quando é difícil extrair funcionalidades relevantes dos dados e quando você tem um grande volume de dados.

O aprendizado semissupervisionado é ideal para imagens médicas, onde uma pequena quantidade de dados de treinamento pode levar a uma melhoria significativa na precisão. Por exemplo, um radiologista pode rotular um pequeno subconjunto de tomografias computadorizadas (TCs) em busca de tumores ou doenças para que a máquina possa prever com mais precisão quais pacientes podem precisar de mais atenção médica.

Saiba mais sobre aprendizado supervisionado e não supervisionado

Os modelos de aprendizado de máquina são uma maneira poderosa de obter os insights de dados que melhoram o nosso mundo. Para saber mais sobre os algoritmos específicos usados com aprendizado supervisionado e não supervisionado, incentivamos você a se aprofundar nos artigos do Learn Hub sobre essas técnicas. Também recomendamos verificar o post de blog que vai um passo além, com uma visão detalhada de deep learning e redes neurais.

 

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real