O que é Aprendizado não Supervisionado?
Saiba como funciona o aprendizado não supervisionado e como ele pode ser usado para descobrir e agrupar dados
Linha verde abstrata, onda, elemento, isolados em uma ilustração com fundo preto
O que é Aprendizado não Supervisionado?

Aprendizado não supervisionado, também conhecido como machine learning não supervisionado, usa algoritmos de machine learning para analisar e agrupar conjuntos de dados não rotulados. Esses algoritmos descobrem padrões ocultos ou agrupamentos de dados sem a necessidade de intervenção humana. Sua capacidade de descobrir semelhanças e diferenças nas informações o torna a solução ideal para análise exploratória de dados, estratégias de vendas cruzadas, segmentação de clientes e reconhecimento de imagem.

Abordagens comuns de aprendizado não supervisionado

Modelos de aprendizado não supervisionado são utilizados para três tarefas principais, sendo elas armazenamento em cluster, associação e redução de dimensionalidade. A seguir, iremos definir cada método de aprendizado e destacar algoritmos e abordagens comuns para realizá-los de forma eficaz.

Clustering

Armazenamento em cluster é uma técnica de mineração de dados que agrupa dados não rotulados com base em suas semelhanças ou diferenças. Algoritmos de armazenamento em cluster são usados para processar objetos de dados não classificados e brutos em grupos representados por estruturas ou padrões nas informações. Os algoritmos de armazenamento em cluster podem ser categorizados em alguns tipos, especificamente exclusivos, sobrepostos, hierárquicos e probabilísticos.

Armazenamento em cluster exclusivo e sobreposto

O armazenamento em cluster exclusivo é uma forma de agrupamento que estipula que um ponto de dados pode existir apenas em um cluster. Isso também pode ser chamado de armazenamento em cluster “hard”. O algoritmo de clusterização k-médias é um exemplo de armazenamento em cluster exclusivo.

  • O armazenamento em cluster de k-médias é um exemplo comum de um método de armazenamento em cluster exclusivo em que pontos de dados são atribuídos a grupos K, em que K representa o número de clusters com base na distância do centroide de cada grupo. Os pontos de dados mais próximos de um determinado centroide serão agrupados sob a mesma categoria. Um maior valor de K será indicativo de agrupamentos menores com mais granularidade, enquanto que um menor valor de K terá agrupamentos maiores e menos granularidade. O armazenamento em cluster de k-médias é comumente usado em segmentação de mercado, armazenamento em cluster de documentos, segmentação de imagem e compactação de imagem.

Os clusters sobrepostos diferem do armazenamento em cluster exclusivo, no sentido de que permite que pontos de dados pertençam a vários clusters com níveis diferentes de filiação. O armazenamento em cluster de k-médias difuso ou “soft” é um exemplo de armazenamento em cluster sobreposto.

Armazenamento em cluster hierárquico

O armazenamento em cluster hierárquico, também conhecido como análise de cluster hierárquico (HCA), é um algoritmo de clusterização não supervisionado que pode ser categorizado de duas formas, aglomerativo ou divisivo. O armazenamento em cluster aglomerativo é considerado uma “abordagem de baixo para cima.” Seus pontos de dados são inicialmente isolados como agrupamentos separados e, em seguida, eles são mesclados iterativamente com base na similaridade até que um cluster seja alcançado. Quatro métodos diferentes são comumente usados para medir a similaridade:

  1. Ligação de Ward: este método afirma que a distância entre dois clusters é definida pelo aumento da soma do quadrado após os clusters serem mesclados.
  2. Ligação média: este método é definido pela distância média entre dois pontos em cada cluster
  3. Ligação completa (ou máxima): este método é definido pela distância máxima entre dois pontos em cada cluster
  4. Ligação simples (ou mínima): este método é definido pela distância mínima entre dois pontos em cada cluster

A distância euclidiana é a métrica mais comum usada para calcular essas distância; no entanto, outras métricas, como a distância de Manhattan, também são citadas na literatura de armazenamento em cluster.

O armazenamento em cluster divisivo pode ser definido como o oposto do armazenamento em cluster aglomerativo, pois ele adota uma abordagem “de cima para baixo”. Nesse caso, um único cluster de dados é dividido com base nas diferenças entre os pontos de dados. O armazenamento em cluster divisivo não é comumente usado, mas ainda vale a pena observar no contexto do armazenamento em cluster hierárquico. Esses processos de armazenamento em cluster são geralmente visualizados usando um dendrograma, que é um diagrama semelhante a uma árvore que documenta a mesclagem ou a divisão de pontos de dados em cada iteração.

Armazenamento em cluster probabilístico

Um modelo probabilístico é uma técnica não supervisionada que nos ajuda a resolver problemas de estimativa de densidade ou de armazenamento em cluster “soft”. No armazenamento em cluster probabilístico, pontos de dados são agrupados com base na probabilidade de pertencerem a uma determinada distribuição. O Modelo de Mistura Gaussiano (GMM) é um dos métodos de armazenamento em cluster probabilístico mais comumente usados.

  • Os Modelos de Mistura Gaussiano são classificados como modelos de mistura, o que significa que são constituídos por um número não especificado de funções de distribuição de probabilidade. Os GMMs são usados principalmente para determinar a qual distribuição de probabilidade Gaussiana, ou normal, um determinado ponto de dados pertence. Se a média ou a variação forem conhecidos, então podemos determinar a qual distribuição um determinado ponto de dados pertence. No entanto, em GMMs, essas variáveis não são conhecidas, portanto, assumimos que uma variável latente, ou oculta, existe para agrupar pontos de dados de forma apropriada. Embora não seja necessário usar o algoritmo Expectativa-Maximização (EM), ele é comumente usado para estimar as probabilidades de designação de um determinado ponto de dados a um determinado cluster de dados.   

Regras de associação

Uma regra de associação é um método baseado em regras para encontrar relacionamentos entre variáveis em um determinado conjunto de dados. Esses métodos são frequentemente usados para análise de carrinhos, permitindo que as empresas entendam melhor as relações entre diferentes produtos. Compreender os hábitos de consumo dos clientes permite que as empresas desenvolvam melhores estratégias de venda cruzada e mecanismos de recomendação. Exemplos disso podem ser vistos na lista de reprodução "Clientes que compraram este item também compraram" da Amazon ou a "Discover Weekly" do Spotify. Embora existam alguns diferentes algoritmos usados para gerar regras de associação, como Apriori, Eclat e FP-Growth, o algoritmo Apriori é o mais amplamente usado.

Algoritmos Apriori

Algoritmos Apiori se popularizaram por meio de análises de cesta de mercado, levando a diferentes mecanismos de recomendação para plataformas de música e varejistas on-line. Eles são usados em conjuntos de dados transacionais para identificar conjuntos de itens frequentes, ou coleções de itens, para identificar a probabilidade de consumir um produto dado o consumo de outro produto. Por exemplo, se eu reproduzir a rádio do Black Sabbath no Spotify, começando com sua música "Orchid", uma das outras músicas nesse canal provavelmente será uma música do Led Zeppelin, como "Over the Hills and Far Away". Isso se baseia tanto nos meus hábitos de escuta anteriores como aqueles de outras pessoas. Algoritmos Apriori usam uma árvore de hash  para a contagem de conjuntos de itens, navegando pelo conjunto de dados de maneira que usa a abrangência primeiro.

Redução de dimensionalidade

Embora mais dados geralmente produzam resultados mais precisos, isso também pode afetar o desempenho dos algoritmos de machine learning (por exemplo, sobreajuste) e também pode dificultar a visualização de conjuntos de dados. A redução de dimensionalidade é uma técnica usada quando o número de recursos, ou dimensões, em um determinado conjunto de dados é muito alto. Ela reduz o número de entradas de dados a um tamanho gerenciável, ao mesmo tempo em que também preserva a integridade do conjunto de dados o máximo possível. É comumente usada no estágio de pré-processamento de dados e existem alguns diferentes métodos de redução de dimensionalidade que podem ser usados, como:

Análise de componente principal

A análise de componente principal (PCA) é um tipo de algoritmo de redução de dimensionalidade usado para reduzir redundâncias e compactar conjuntos de dados por meio de extração de recursos. Este método usa uma transformação linear para criar uma nova representação de dados, gerando um conjunto de "componentes principais". O primeiro componente principal é a direção que maximiza a variação do conjunto de dados. Embora o segundo componente principal também encontre a variação máxima nos dados, ele é completamente não correlacionado ao primeiro componente principal, produzindo uma direção que é perpendicular ou ortogonal ao primeiro componente. Este processo se repete baseado no número de dimensões, em que um próximo componente principal é a direção ortogonal em relação aos componentes anteriores com a maior variação.

Decomposição em valores singulares

A decomposição em valores singulares (SVD) é outra abordagem de redução da dimensionalidade que fatora uma matriz, A, em três matrizes de baixa classificação. Uma SVD é denotada pela fórmula, A = USVT, em que U e V são matrizes ortogonais. S é uma matriz diagonal, e os valores S são considerados valores singulares da matriz A. Semelhante à PCA, ela é comumente usada para reduzir o ruído e compactar dados, como arquivos de imagens.

Codificadores automáticos

Os codificadores automáticos utilizam redes neurais para compactar dados e, em seguida, recriar uma nova representação da entrada dos dados originais. Analisando a imagem abaixo, é possível ver que a camada oculta atua especificamente como um gargalo para compactar a camada de entrada antes de se reconstruir dentro da camada de saída. O estágio da camada de entrada à camada oculta é referido como “codificação” enquanto o estágio da camada oculta à camada de saída é conhecido como “decodificação.”

Aplicações de aprendizado não supervisionado

As técnicas de machine learning tornaram-se um método comum para melhorar a experiência do usuário com um produto e testar sistemas de garantia de qualidade. O aprendizado não supervisionado fornece um caminho exploratório para visualizar dados, permitindo que as empresas identifiquem padrões em grandes volumes de dados mais rapidamente quando comparado à observação manual. Algumas das aplicações de aprendizado não supervisionado mais comuns no mundo real são:

  • Seções de notícias: o Google News usa aprendizado não supervisionado para categorizar artigos sobre a mesma história de várias agências de notícias. Por exemplo, os resultados de uma eleição presidencial podem ser categorizados sob o rótulo de notícias dos “EUA”.
  • Computer vision: algoritmos de aprendizado não supervisionado são usados para tarefas de percepção visual, como reconhecimento de objetos.  
  • Imagiologia médica: o machine learning não supervisionado fornece recursos essenciais aos dispositivos de imagiologia médica, como a detecção, a classificação e a segmentação de imagens, usadas em radiologia e patologia para diagnosticar pacientes de forma rápida e precisa.
  • Detecção de anomalias: modelos de aprendizado não supervisionado podem vasculhar através de grandes quantidades de dados e descobrir pontos de dados atípicos em um conjunto de dados. Estas anomalias podem aumentar a conscientização sobre equipamento defeituoso, erro humano ou violações na segurança.
  • Personas de clientes: definir as personas de clientes facilita entender características comuns e os hábitos de compras de clientes de negócios. O aprendizado não supervisionado permite que as empresas construam melhores perfis de personas de compradores, permitindo que organizações alinhem as mensagens de seus produtos de forma mais adequada.
  • Mecanismos de recomendação: usando dados de comportamento de compras passados, o aprendizado não supervisionado pode ajudar a descobrir tendências de dados que podem ser usadas para desenvolver estratégias mais eficazes de venda cruzada. Isso é usado para fazer recomendações complementares relevantes aos clientes durante o processo de finalização de compra dos varejistas on-line.
Aprendizado não supervisionado vs. supervisionado vs. semissupervisionado

Aprendizado não supervisionado e aprendizado supervisionado são frequentemente discutidos juntos. Ao contrário dos algoritmos de aprendizado não supervisionado, os algoritmos de aprendizado supervisionado usam dados rotulados. A partir desses dados, ele prevê resultados futuros ou atribui dados a categorias específicas com base na regressão ou classificação do problema que está tentando resolver. Embora os algoritmos de aprendizado supervisionado tendam a ser mais precisos do que os modelos de aprendizado não supervisionado, eles exigem intervenção humana inicial para rotular os dados adequadamente. No entanto, esses conjuntos de dados rotulados permitem que algoritmos de aprendizado supervisionado evitem a complexidade computacional, uma vez que eles não precisam de um grande conjunto de treinamento para produzir resultados pretendidos. Técnicas comuns de regressão e classificação são regressão linear e logística, naïve bayes, algoritmo KNN e floresta aleatória.

O aprendizado semissupervisionado ocorre quando apenas parte dos dados de entrada fornecidos foi rotulada. O aprendizado não supervisionado e o semissupervisionado podem ser alternativas mais atraentes uma vez que pode ser demorado e dispendioso depender do conhecimento do domínio para rotular dados de forma adequada para o aprendizado supervisionado.

Para uma detalhamento sobre as diferenças entre essas abordagens, consulte "Aprendizado supervisionado vs. não supervisionado: qual é a diferença?"

Desafios do aprendizado não supervisionado

Embora o aprendizado não supervisionado tenha muitos benefícios, alguns desafios podem ocorrer quando ele permite que os modelos de machine learning sejam executados sem qualquer intervenção humana. Alguns desses desafios podem incluir:

  • Complexidade computacional devido a um volume elevado de dados de treinamento
  • Tempos de treinamento mais longos
  • Maior risco de resultados imprecisos
  • Intervenção humana para validar variáveis de saída
  • Falta de transparência na base sobre a qual dados são agrupados

 

Soluções relacionadas
IBM Watson® Studio

Desenvolva e ajuste a escala da IA confiável em qualquer cloud. Automatize o ciclo de vida de IA para ModelOps.

Conheça o IBM Watson® Studio
IBM Cloud Pak® for Data

Conecte os dados certos, na hora certa, para as pessoas certas e em qualquer lugar.

Conheça o Cloud Pak for Data
Soluções do IBM Cloud

Híbrida. Aberta. Resiliente. Sua plataforma e parceira para a transformação digital.

Conheça as soluções de cloud
Recursos Aprendizagem supervisionada versus não supervisionada: qual é a diferença?

Conheça os fundamentos de duas abordagens da ciência de dados: supervisionada e não supervisionada. Descubra qual abordagem é ideal para a sua situação.

Os 3 modelos para machine learning

Saiba mais sobre as três categorias de algoritmos: aprendizado supervisionado, não supervisionado e de reforço. Veja as ideias por trás deles e alguns dos principais algoritmos usados em cada.

Dê o próximo passo

Os modelos de machine learning não supervisionado são ferramentas poderosas quando se trabalha com grandes quantidades de dados.O IBM Watson Studio on IBM Cloud Pak for Data oferece uma solução de software livre para cientistas de dados e desenvolvedores que procuram acelerar suas implementações de machine learning não supervisionado. Ajuste a escala de seus modelos de aprendizado em qualquer ambiente de cloud e beneficie-se dos recursos e conhecimento da IBM para obter o máximo de seus modelos de machine learning não supervisionado.

Conheça o IBM Watson® Studio agora