O aprendizado não supervisionado, também conhecido como aprendizado de máquina não supervisionado, utiliza algoritmos de aprendizado de máquina (ML) para analisar e agrupar conjuntos de dados sem rótulos. Esses algoritmos descobrem padrões ocultos ou agrupamentos de dados sem a necessidade de intervenção humana.
A capacidade do aprendizado não supervisionado de identificar semelhanças e diferenças nas informações o torna uma solução ideal para análise exploratória de dados, estratégias de venda cruzada, segmentação de clientes e reconhecimento de imagens.
Modelos de aprendizado não supervisionado são utilizados para três tarefas principais — clustering (agrupamento), associação e redução de dimensionalidade. A seguir, definiremos cada método de aprendizado e destacaremos os algoritmos e abordagens comuns usados para realizá-los de forma eficaz.
Clustering é uma técnica de mineração de dados que agrupa dados sem rótulo com base em suas semelhanças ou diferenças. Algoritmos de clustering são usados para processar objetos de dados brutos e não classificados em grupos representados por estruturas ou padrões nas informações. Os algoritmos de clustering podem ser classificados em alguns tipos, especificamente: exclusivos, sobrepostos, hierárquicos e probabilísticos.
O clustering exclusivo é uma forma de agrupamento que determina que um ponto de dado só pode pertencer a um único cluster. Também pode ser chamado de hard clustering. O agrupamento K-means é um exemplo comum de método exclusivo, em que os pontos de dados são atribuídos a K grupos, sendo K o número de clusters com base na distância de cada ponto ao centroide do grupo. Os pontos de dados mais próximos de um determinado centroide serão agrupados nas mesmas categorias. Um valor K maior será indicativo de agrupamentos menores com mais granularidade, enquanto um valor K menor terá agrupamentos maiores e menos granularidade. O cluster K-means é comumente usado na segmentação de mercado, cluster de documentos, segmentação de imagens e compactação de imagens.
Clustering sobreposto difere do clustering exclusivo por permitir que os pontos de dados pertençam a múltiplos clusters com diferentes graus de pertencimento. O clustering de k-means "soft" ou difuso é um exemplo de clustering sobreposto.
Clustering hierárquico, também conhecido como análise de clusters hierárquica (hierarchical cluster analysis – HCA), é um algoritmo de clustering não supervisionado que pode ser categorizado de duas formas: aglomerativo ou divisivo.
Clustering aglomerativo é considerado uma “abordagem de baixo para cima”. Os pontos de dados são inicialmente isolados em agrupamentos separados e, em seguida, são mesclados iterativamente com base em sua similaridade até formar um único cluster. Quatro métodos são comumente usados para medir a similaridade:
A distância euclidiana é a métrica mais comum usada para calcular essas distâncias; no entanto, outras métricas, como a distância de Manhattan, também são mencionadas na literatura sobre clustering.
Clustering divisivo pode ser definido como o oposto do clustering aglomerativo; ele adota uma abordagem de “cima para baixo”. Nesse caso, um único cluster de dados é dividido com base nas diferenças entre os pontos de dados. O clustering divisivo não é amplamente utilizado, mas ainda vale a pena ser citado no contexto do clustering hierárquico. Esses processos de clustering geralmente são visualizados por meio de um dendrograma, um diagrama em forma de árvore que documenta a junção ou divisão dos pontos de dados a cada iteração.
Um modelo probabilístico é uma técnica não supervisionada que ajuda a resolver problemas de estimativa de densidade ou de soft clustering. No clustering probabilístico, os pontos de dados são agrupados com base na probabilidade de pertencerem a uma determinada distribuição. O modelo de mistura gaussiana (GMM) é um dos métodos de clustering probabilístico mais utilizados.
Uma regra de associação é um método baseado em regras para identificar relações entre variáveis em um determinado conjunto de dados. Esses métodos são usados com frequência em análises de cestas de compras, permitindo que as empresas compreendam melhor as relações entre diferentes produtos. Entender os hábitos de consumo dos clientes permite que as empresas desenvolvam melhores estratégias de venda cruzada e mecanismos de recomendação. Exemplos disso podem ser vistos na seção “Clientes que compraram este item também compraram” da Amazon ou na playlist “Discover Weekly” do Spotify. Embora existam alguns algoritmos diferentes usados para gerar regras de associação — como Apriori, Eclat e FP-Growth — o algoritmo Apriori é o mais amplamente utilizado.
Algoritmos Apriori ganharam popularidade com as análises de cestas de compras, dando origem a diferentes mecanismos de recomendação para plataformas de música e varejistas on-line. Eles são usados em conjuntos de dados transacionais para identificar conjuntos frequentes de itens (ou itemsets), ou seja, coleções de itens, a fim de identificar a probabilidade de consumo de um produto com base no consumo de outro. Por exemplo, se eu ouço a rádio do Black Sabbath no Spotify, começando pela música “Orchid”, é provável que uma das próximas músicas seja do Led Zeppelin, como “Over the Hills and Far Away”. Isso se baseia tanto nos meus hábitos de escuta anteriores quanto nos de outros usuários. Algoritmos Apriori utilizam uma árvore de hash para contar conjuntos de itens, navegando pelo conjunto de dados de forma em largura (breadth-first).
Embora mais dados geralmente resultem em resultados mais precisos, eles também podem impactar o desempenho dos algoritmos de aprendizado de máquina (por exemplo, levando ao overfitting) e dificultar a visualização de conjuntos de dados. A redução de dimensionalidade é uma técnica usada quando o número de atributos, ou dimensões, em um conjunto de dados é muito alto. Ela reduz a quantidade de inputs de dados para um tamanho mais gerenciável, ao mesmo tempo preservando ao máximo a integridade do conjunto de dados. Essa técnica é amplamente usada na etapa de pré-processamento de dados, e há alguns métodos diferentes que podem ser utilizados, como:
Análise de componentes principais (PCA) é um tipo de algoritmo de redução de dimensionalidade usado para eliminar redundâncias e comprimir conjuntos de dados por meio da extração de atributos. Esse método usa uma transformação linear para criar uma nova representação dos dados, gerando um conjunto de “componentes principais”. O primeiro componente principal representa a direção que maximiza a variância do conjunto de dados. O segundo componente principal também encontra a máxima variância nos dados, mas é totalmente não correlacionado com o primeiro, resultando em uma direção perpendicular, ou ortogonal, ao primeiro componente. Esse processo se repete conforme o número de dimensões, em que cada novo componente principal é a direção ortogonal aos anteriores que apresenta a maior variância.
Decomposição em valores singulares é outra abordagem de redução de dimensionalidade que fatora uma matriz A em três matrizes de baixa ordem. SVD é representada pela fórmula A = USVT, em que U e V são matrizes ortogonais. S é uma matriz diagonal, e os valores de S são considerados os valores singulares da matriz A. Assim como o PCA, o SVD é amplamente utilizado para reduzir ruído e comprimir dados, como arquivos de imagem.
Autocodificadores utilizam redes neurais para comprimir os dados e, em seguida, recriar uma nova representação do input original. Observando a imagem abaixo, é possível ver que a camada oculta atua como um gargalo, comprimindo a camada de input antes da reconstrução na camada de saída. A etapa da camada de input até a camada oculta é chamada de “encoding”, enquanto a etapa da camada oculta até a camada de saída é conhecida como “decoding”.
As técnicas de aprendizado de máquina se tornaram um método comum para melhorar a experiência do usuário de um produto e testar sistemas para garantia de qualidade. O aprendizado não supervisionado oferece um caminho exploratório para visualizar os dados, permitindo que as empresas identifiquem padrões em grandes volumes de dados com muito mais rapidez do que seria possível por meio de observação manual. Algumas das aplicações mais comuns do aprendizado não supervisionado no mundo real são:
O aprendizado não supervisionado e o aprendizado supervisionado são frequentemente discutidos em conjunto. Ao contrário dos algoritmos de aprendizado não supervisionado, os algoritmos de aprendizado supervisionado utilizam dados rotulados. A partir desses dados, o modelo pode prever resultados futuros ou classificar os dados em categorias específicas, com base no problema de regressão ou classificação que está tentando resolver.
Embora os algoritmos de aprendizado supervisionado tendam a ser mais precisos do que os modelos de aprendizado não supervisionado, eles exigem intervenção humana inicial para rotular os dados corretamente. No entanto, esses conjuntos de dados rotulados permitem que os algoritmos supervisionados evitem complexidade computacional, já que não precisam de um grande conjunto de treinamento para gerar os resultados esperados. Técnicas comuns de regressão e classificação incluem regressão linear e logística, naïve Bayes, algoritmo KNN e random forest.
O aprendizado semissupervisionado ocorre quando apenas parte dos dados de input fornecidos está rotulada. O aprendizado não supervisionado e o aprendizado semissupervisionado podem ser alternativas mais atrativas, já que rotular os dados corretamente com base em conhecimento especializado pode ser caro e demorado.
Para se aprofundar nas diferenças entre essas abordagens, confira "Aprendizado supervisionado versus não supervisionado: qual éa diferença? "
Embora o aprendizado não supervisionado ofereça muitos benefícios, alguns desafios podem surgir por permitir que modelos de aprendizado de máquina sejam executados sem intervenção humana. Esses desafios incluem: