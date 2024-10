No aprendizado de máquina, as "dimensões" dos dados não se referem às dimensões familiares e intuitivas do espaço físico. No espaço vetorial, cada dimensão corresponde a um recurso individual dos dados, da mesma forma que comprimento, largura e profundidade são recursos de um objeto no espaço físico.

Embeddings vetoriais normalmente lidam com dados de alta dimensão. Na prática, a maioria das informações não numéricas é de alta dimensão. Por exemplo, mesmo uma pequena e simples imagem em preto e branco de 28x28 pixels de um dígito manuscrito do conjunto de dados MNIST pode ser representada como um vetor de 784 dimensões, no qual cada dimensão corresponde a um pixel individual cujo valor em escala de cinza varia de 0 (para preto) a 1 (para branco).

No entanto, nem todas essas dimensões dos dados contêm informações úteis. Em nosso exemplo do MNIST, o próprio dígito representa apenas uma pequena fração da imagem. O restante é um fundo em branco ou "ruído". Assim, seria mais preciso dizer que estamos "embutindo uma representação da imagem em um espaço de 784 dimensões" do que dizer que estamos "representando 784 diferentes características da imagem".

Embeddings vetoriais eficientes de dados de alta dimensão frequentemente envolvem algum grau de redução de dimensionalidade: a compressão de dados de alta dimensão para um espaço de menor dimensão que omite informações irrelevantes ou redundantes.

A redução de dimensionalidade aumenta a velocidade e a eficiência do modelo, embora com um potencial comprometimento em precisão ou exatidão, porque vetores menores requerem menos poder computacional para operações matemáticas. Também pode ajudar a diminuir o risco de overfitting dos dados de treinamento. Diferentes métodos de redução de dimensionalidade, como autoencoders, convoluções, análise de componentes principais e incorporação de vizinhos estocásticos distribuídos em T (t-SNE), são mais adequados para diferentes tipos de dados e tarefas.

Enquanto as dimensões dos dados vetoriais de imagens são relativamente objetivas e intuitivas, determinar as características relevantes de algumas modalidades de dados, como os significados semânticos e as relações contextuais da linguagem, é mais abstrato ou subjetivo. Nesses casos, as características específicas representadas pelas dimensões dos embeddings vetoriais podem ser estabelecidas por meio de uma engenharia de funcionalidade manual ou, mais comumente na era do deep learning, determinadas implicitamente através do processo de treinar um modelo para fazer previsões precisas.