O que é aprendizado não supervisionado?

Imagem aérea de um riacho glacial na Islândia

O que é aprendizado não supervisionado?

O aprendizado não supervisionado, também conhecido como aprendizado de máquina não supervisionado, utiliza algoritmos de aprendizado de máquina (ML) para analisar e agrupar conjuntos de dados sem rótulos. Esses algoritmos descobrem padrões ocultos ou agrupamentos de dados sem a necessidade de intervenção humana.

A capacidade do aprendizado não supervisionado de identificar semelhanças e diferenças nas informações o torna uma solução ideal para análise exploratória de dados, estratégias de venda cruzada, segmentação de clientes e reconhecimento de imagens.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA  

Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think.

Abordagens comuns de aprendizado não supervisionado

Modelos de aprendizado não supervisionado são utilizados para três tarefas principais — clustering (agrupamento), associação e redução de dimensionalidade. A seguir, definiremos cada método de aprendizado e destacaremos os algoritmos e abordagens comuns usados para realizá-los de forma eficaz.

Clustering

Clustering é uma técnica de mineração de dados que agrupa dados sem rótulo com base em suas semelhanças ou diferenças. Algoritmos de clustering são usados para processar objetos de dados brutos e não classificados em grupos representados por estruturas ou padrões nas informações. Os algoritmos de clustering podem ser classificados em alguns tipos, especificamente: exclusivos, sobrepostos, hierárquicos e probabilísticos.

Clustering exclusivo e sobreposto

O clustering exclusivo é uma forma de agrupamento que determina que um ponto de dado só pode pertencer a um único cluster. Também pode ser chamado de hard clustering. O agrupamento K-means é um exemplo comum de método exclusivo, em que os pontos de dados são atribuídos a K grupos, sendo K o número de clusters com base na distância de cada ponto ao centroide do grupo. Os pontos de dados mais próximos de um determinado centroide serão agrupados nas mesmas categorias. Um valor K maior será indicativo de agrupamentos menores com mais granularidade, enquanto um valor K menor terá agrupamentos maiores e menos granularidade. O cluster K-means é comumente usado na segmentação de mercado, cluster de documentos, segmentação de imagens e compactação de imagens.

Clustering sobreposto difere do clustering exclusivo por permitir que os pontos de dados pertençam a múltiplos clusters com diferentes graus de pertencimento. O clustering de k-means "soft" ou difuso é um exemplo de clustering sobreposto.

Clustering hierárquico

Clustering hierárquico, também conhecido como análise de clusters hierárquica (hierarchical cluster analysis – HCA), é um algoritmo de clustering não supervisionado que pode ser categorizado de duas formas: aglomerativo ou divisivo.

Clustering aglomerativo é considerado uma “abordagem de baixo para cima”. Os pontos de dados são inicialmente isolados em agrupamentos separados e, em seguida, são mesclados iterativamente com base em sua similaridade até formar um único cluster. Quatro métodos são comumente usados para medir a similaridade:

Ligação de Ward: a distância entre dois clusters é definida pelo aumento na soma dos quadrados após a junção dos clusters.
Ligação média: definida pela distância média entre dois pontos em cada cluster.
Vinculação completa (ou máxima): definida pela maior distância entre dois pontos em cada cluster.
Ligação única (ou mínima): definida pela menor distância entre dois pontos em cada cluster.

A distância euclidiana é a métrica mais comum usada para calcular essas distâncias; no entanto, outras métricas, como a distância de Manhattan, também são mencionadas na literatura sobre clustering.

Clustering divisivo pode ser definido como o oposto do clustering aglomerativo; ele adota uma abordagem de “cima para baixo”. Nesse caso, um único cluster de dados é dividido com base nas diferenças entre os pontos de dados. O clustering divisivo não é amplamente utilizado, mas ainda vale a pena ser citado no contexto do clustering hierárquico. Esses processos de clustering geralmente são visualizados por meio de um dendrograma, um diagrama em forma de árvore que documenta a junção ou divisão dos pontos de dados a cada iteração.

Clustering probabilístico

Um modelo probabilístico é uma técnica não supervisionada que ajuda a resolver problemas de estimativa de densidade ou de soft clustering. No clustering probabilístico, os pontos de dados são agrupados com base na probabilidade de pertencerem a uma determinada distribuição. O modelo de mistura gaussiana (GMM) é um dos métodos de clustering probabilístico mais utilizados.

Modelos de mistura gaussiana são classificados como modelos de mistura, o que significa que são compostos por um número indefinido de funções de distribuição de probabilidade. Os GMMs são utilizados principalmente para determinar a qual distribuição de probabilidade gaussiana (ou normal) um determinado ponto de dado pertence. Se a média ou a variância forem conhecidas, é possível determinar a que distribuição um ponto de dado pertence. No entanto, em GMMs, essas variáveis não são conhecidas, então assume-se a existência de uma variável latente (ou oculta) para agrupar adequadamente os pontos de dados. Embora não seja obrigatório usar o algoritmo de expectativa-maximização (EM), ele é comumente utilizado para estimar as probabilidades de associação de um dado ponto a um cluster específico.

Regras de associação

Uma regra de associação é um método baseado em regras para identificar relações entre variáveis em um determinado conjunto de dados. Esses métodos são usados com frequência em análises de cestas de compras, permitindo que as empresas compreendam melhor as relações entre diferentes produtos. Entender os hábitos de consumo dos clientes permite que as empresas desenvolvam melhores estratégias de venda cruzada e mecanismos de recomendação. Exemplos disso podem ser vistos na seção “Clientes que compraram este item também compraram” da Amazon ou na playlist “Discover Weekly” do Spotify. Embora existam alguns algoritmos diferentes usados para gerar regras de associação — como Apriori, Eclat e FP-Growth — o algoritmo Apriori é o mais amplamente utilizado.

Algoritmos Apriori

Algoritmos Apriori ganharam popularidade com as análises de cestas de compras, dando origem a diferentes mecanismos de recomendação para plataformas de música e varejistas on-line. Eles são usados em conjuntos de dados transacionais para identificar conjuntos frequentes de itens (ou itemsets), ou seja, coleções de itens, a fim de identificar a probabilidade de consumo de um produto com base no consumo de outro. Por exemplo, se eu ouço a rádio do Black Sabbath no Spotify, começando pela música “Orchid”, é provável que uma das próximas músicas seja do Led Zeppelin, como “Over the Hills and Far Away”. Isso se baseia tanto nos meus hábitos de escuta anteriores quanto nos de outros usuários. Algoritmos Apriori utilizam uma árvore de hash para contar conjuntos de itens, navegando pelo conjunto de dados de forma em largura (breadth-first).

Redução de dimensionalidade

Embora mais dados geralmente resultem em resultados mais precisos, eles também podem impactar o desempenho dos algoritmos de aprendizado de máquina (por exemplo, levando ao overfitting) e dificultar a visualização de conjuntos de dados. A redução de dimensionalidade é uma técnica usada quando o número de atributos, ou dimensões, em um conjunto de dados é muito alto. Ela reduz a quantidade de inputs de dados para um tamanho mais gerenciável, ao mesmo tempo preservando ao máximo a integridade do conjunto de dados. Essa técnica é amplamente usada na etapa de pré-processamento de dados, e há alguns métodos diferentes que podem ser utilizados, como:

Análise de componentes principais

Análise de componentes principais (PCA) é um tipo de algoritmo de redução de dimensionalidade usado para eliminar redundâncias e comprimir conjuntos de dados por meio da extração de atributos. Esse método usa uma transformação linear para criar uma nova representação dos dados, gerando um conjunto de “componentes principais”. O primeiro componente principal representa a direção que maximiza a variância do conjunto de dados. O segundo componente principal também encontra a máxima variância nos dados, mas é totalmente não correlacionado com o primeiro, resultando em uma direção perpendicular, ou ortogonal, ao primeiro componente. Esse processo se repete conforme o número de dimensões, em que cada novo componente principal é a direção ortogonal aos anteriores que apresenta a maior variância.

Decomposição em valores singulares

Decomposição em valores singulares é outra abordagem de redução de dimensionalidade que fatora uma matriz A em três matrizes de baixa ordem. SVD é representada pela fórmula A = USVT, em que U e V são matrizes ortogonais. S é uma matriz diagonal, e os valores de S são considerados os valores singulares da matriz A. Assim como o PCA, o SVD é amplamente utilizado para reduzir ruído e comprimir dados, como arquivos de imagem.

Autocodificadores

Autocodificadores utilizam redes neurais para comprimir os dados e, em seguida, recriar uma nova representação do input original. Observando a imagem abaixo, é possível ver que a camada oculta atua como um gargalo, comprimindo a camada de input antes da reconstrução na camada de saída. A etapa da camada de input até a camada oculta é chamada de “encoding”, enquanto a etapa da camada oculta até a camada de saída é conhecida como “decoding”.

Aplicações do aprendizado não supervisionado

As técnicas de aprendizado de máquina se tornaram um método comum para melhorar a experiência do usuário de um produto e testar sistemas para garantia de qualidade. O aprendizado não supervisionado oferece um caminho exploratório para visualizar os dados, permitindo que as empresas identifiquem padrões em grandes volumes de dados com muito mais rapidez do que seria possível por meio de observação manual. Algumas das aplicações mais comuns do aprendizado não supervisionado no mundo real são:

Seções de notícias: o Google Notícias usa aprendizado não supervisionado para categorizar artigos sobre a mesma história de vários veículos de notícias on-line. Por exemplo, os resultados de uma eleição presidencial poderiam ser categorizados sob o rótulo de notícias “EUA”.
Visão computacional: algoritmos de aprendizado não supervisionado são usados para tarefas de percepção visual, como reconhecimento de objetos.
Imagem médica: o aprendizado de máquina não supervisionado fornece funcionalidades essenciais aos dispositivos de imagens médicas, como detecção, classificação e segmentação de imagens, usados em radiologia e patologia para diagnosticar pacientes com rapidez e precisão.
Detecção de anomalias: os modelos de aprendizado não supervisionado podem vasculhar grandes quantidades de dados e descobrir pontos de dados atípicos em um conjunto de dados. Essas anomalias podem aumentar o conhecimento sobre equipamentos com defeito, erros humanos ou violações na segurança.
Personas do cliente: a definição de personas de clientes facilita a compreensão de características comuns e hábitos de compra de clientes empresariais. O aprendizado não supervisionado permite que as empresas construam melhores perfis de persona do comprador, permitindo que as organizações alinhem a mensagem do produto de forma mais apropriada.
Mecanismos de recomendação: com base em dados de comportamento de compras anteriores, o aprendizado não supervisionado pode ajudar a identificar tendências nos dados que possibilitam o desenvolvimento de estratégias de venda cruzada mais eficazes. Isso é usado para recomendar itens adicionais relevantes aos clientes durante o processo de checkout em lojas on-line.

Mixture of Experts | 28 de agosto, episódio 70

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Assista aos episódios mais recentes do podcast

Aprendizado não supervisionado vs. supervisionado e semissupervisionado

O aprendizado não supervisionado e o aprendizado supervisionado são frequentemente discutidos em conjunto. Ao contrário dos algoritmos de aprendizado não supervisionado, os algoritmos de aprendizado supervisionado utilizam dados rotulados. A partir desses dados, o modelo pode prever resultados futuros ou classificar os dados em categorias específicas, com base no problema de regressão ou classificação que está tentando resolver.

Embora os algoritmos de aprendizado supervisionado tendam a ser mais precisos do que os modelos de aprendizado não supervisionado, eles exigem intervenção humana inicial para rotular os dados corretamente. No entanto, esses conjuntos de dados rotulados permitem que os algoritmos supervisionados evitem complexidade computacional, já que não precisam de um grande conjunto de treinamento para gerar os resultados esperados. Técnicas comuns de regressão e classificação incluem regressão linear e logística, naïve Bayes, algoritmo KNN e random forest.

O aprendizado semissupervisionado ocorre quando apenas parte dos dados de input fornecidos está rotulada. O aprendizado não supervisionado e o aprendizado semissupervisionado podem ser alternativas mais atrativas, já que rotular os dados corretamente com base em conhecimento especializado pode ser caro e demorado.

Para se aprofundar nas diferenças entre essas abordagens, confira "Aprendizado supervisionado versus não supervisionado: qual éa diferença? "

Desafios do aprendizado não supervisionado

Embora o aprendizado não supervisionado ofereça muitos benefícios, alguns desafios podem surgir por permitir que modelos de aprendizado de máquina sejam executados sem intervenção humana. Esses desafios incluem:

Complexidade computacional devido ao grande volume de dados de treinamento
Tempos de treinamento mais longos
Maior risco de resultados imprecisos
Intervenção humana para validar variáveis de saída
Falta de transparência quanto à base usada para agrupar os dados

Como escolher o modelo de base certo

Aprenda como escolher a abordagem correta na preparação de conjuntos de dados e no emprego de modelos de base.

Recursos

Garantindo o ROI: agentes de IA em sua empresa

Participe do webinar da IBM no qual demonstramos como garantir o ROI real por meio de iniciativas de IA agêntica, com exemplos de setores, casos de uso e até mesmo as histórias de sucesso da própria IBM.

IBM reconhecida como líder em ciência de dados e aprendizado de máquina

Saiba por que a IBM foi reconhecida como líder no Gartner Magic Quadrant de 2025 para plataformas de ciência de dados e aprendizado de máquina.

De projetos de IA a lucros: como a IA agêntica pode sustentar retornos financeiros

Saiba como as organizações estão passando de lançamentos de IA em pilotos díspares para usá-la para impulsionar a transformação no núcleo.

Aumente o nível da sua experiência em IA

Acesse nosso catálogo completo com mais de 100 cursos on-line adquirindo uma assinatura individual ou para múltiplos usuários hoje, permitindo que você expanda suas habilidades em uma variedade de nossos produtos a um preço baixo.

Explore o IBM Granite

IBM® Granite é uma família de modelos de IA de código aberto, de alto desempenho e confiáveis, adaptados para negócios e otimizados para escalar suas aplicações de IA. Explore opções de linguagem, código, séries temporais e proteções.

IBM AI Academy

Liderada pelos principais líderes da IBM, o currículo dessa experiência foi desenvolvido para ajudar líderes empresariais a terem o conhecimento necessário para priorizar os investimentos em IA que podem estimular o crescimento.

IA em ação 2024

Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.

Guia do CEO para 2025: 5 mudanças de mentalidade para impulsionar o crescimento dos negócios

Adote essas cinco mudanças de mentalidade para acabar com a incerteza, estimular a reinvenção dos negócios e acelerar o crescimento com a IA agêntica.

Liberar o poder da IA generativa e do aprendizado de máquina

Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.

Como prosperar nesta nova era da IA com confiança e convicção

Aprofunde-se nos três elementos críticos de uma estratégia de IA sólida: criar uma vantagem competitiva, escalar a IA em todo o negócio e avançar na direção de uma IA confiável.

Soluções relacionadas

IBM® watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em menos tempo com menos dados.

Explore o watsonx.ai

Soluções de inteligência artificial

Coloque a IA em ação na sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

Explore as soluções de IA

Consultoria e serviços em inteligência artificial (IA)

Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

Explore os serviços de IA

Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai

Agende uma demonstração em tempo real