La naturaleza de los datos ha cambiado drásticamente en los últimos años. Ya no se limita a la información estructurada almacenada de forma ordenada en las filas y columnas de las bases de datos tradicionales. Los datos no estructurados, incluidas las publicaciones en redes sociales, las imágenes, los vídeos y el audio, están creciendo tanto en volumen como en valor, remodelando las estrategias de IA empresarial y planteando nuevas exigencias a la infraestructura de datos.
Las bases de datos relacionales tradicionales destacan en la gestión de conjuntos de datos estructurados y semiestructurados dentro de esquemas definidos. Sin embargo, cargar y preparar datos no estructurados en una base de datos relacional para cargas de trabajo de IA requiere mucho trabajo.
La búsqueda tradicional agrava esta limitación: se basa en tokens discretos como palabras clave, etiquetas o metadatos y devuelve resultados basados en coincidencias exactas. Una búsqueda de “smartphone”, por ejemplo, recupera solo el contenido que contiene ese término específico.
Las bases de datos vectoriales adoptan un enfoque fundamentalmente diferente. En lugar de filas y columnas, los puntos de datos se representan como vectores densos en los que cada dimensión representa una característica aprendida de los datos. Estas embeddings vectoriales de alta dimensión existen en el espacio vectorial, donde las relaciones entre elementos se pueden medir geométricamente.
Dado que cada dimensión representa una característica latente, una característica inferida que se aprende a través de modelos matemáticos y algoritmos, las representaciones vectoriales capturan patrones ocultos. Una consulta de búsqueda vectorial para “smartphone” también puede devolver resultados relacionados semánticamente, como “teléfono móvil” o “dispositivo móvil”, incluso si esas palabras exactas no aparecen.
Al modelar datos en un espacio de alta dimensión y aplicar técnicas de indexación especializadas, las bases de datos vectoriales permiten realizar búsquedas por similitud de baja latencia en grandes conjuntos de datos, algo para lo que no se diseñaron las bases de datos relacionales.