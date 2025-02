Incorporações vetoriais são representações numéricas de pontos de dados que convertem vários tipos de dados (incluindo dados não matemáticos, como palavras, áudio ou imagens), em matrizes de números que modelos de ML podem processar.

Os modelos de inteligência artificial (IA), desde algoritmos simples de regressão linear até as intrincadas redes neurais usadas no deep learning, operam por meio de lógica matemática.

Quaisquer dados que um modelo de IA utiliza, incluindo dados não estruturados, precisam ser registrados numericamente. A incorporação vetorial é uma forma de converter um ponto de dados não estruturados o em uma matriz de números que expressa o significado original desses dados.



Aqui está um exemplo simplificado de incorporações de palavras para um corpus muito pequeno (duas palavras), onde cada palavra é representada como um vetor tridimensional:

gato [0,2, -0,4, 0,7]

cachorro [0,6, 0,1, 0,5]

Neste exemplo, cada palavra ("gato") está associada a um vetor único ([0.2, -0,4, 0,7]). Os valores no vetor representam a posição da palavra em um espaço vetorial contínuo tridimensional.

Espera-se que palavras com significados ou contextos similares tenham representações vetoriais similares. Por exemplo, os vetores para "gato" e "cão" estão próximos, refletindo sua relação semântica.

Modelos de incorporações são treinados para converter pontos de dados em vetores. Bancos de dados de vetores armazenam e indexam as produções desses modelos de incorporações. Dentro do banco de dados, vetores podem ser agrupados ou identificados como opostos com base no significado semântico ou funcionalidades em praticamente qualquer tipo de dado.

As incorporações vetoriais são a base das recomendações, chatbots e aplicativos generativos, como o ChatGPT.

Por exemplo, considere as palavras "carro" e "veículo". Elas têm significados similares, mas são escritas de forma diferente. Para que uma aplicação de IA permita uma pesquisa semântica eficaz, as representações vetoriais de "carro" e "veículo" devem capturar sua semelhança semântica. No aprendizado de máquina, as incorporações representam vetores de alta dimensão que codificam essa informação semântica.