La naturaleza de los datos ha cambiado drásticamente en los últimos años. Ya no se limita a la información estructurada almacenada perfectamente en las filas y columnas de las bases de datos tradicionales. Los datos no estructurados, incluidas las publicaciones en redes sociales, las imágenes, los videos y el audio, están creciendo tanto en volumen como en valor, remodelando las estrategias de IA empresarial y planteando nuevas demandas a la infraestructura de datos.
Las bases de datos relacionales tradicionales destacan en la gestión de conjuntos de datos estructurados y semiestructurados dentro de esquemas definidos. Sin embargo, cargar y preparar datos no estructurados en una base de datos relacional para cargas de trabajo de IA requiere mucho trabajo.
La búsqueda tradicional agrava esta limitación: se basa en token discretos, como palabras clave, etiquetas o metadatos, y devuelve resultados basados en coincidencias exactas. Una búsqueda de “smartphone”, por ejemplo, solo recupera contenido que contiene ese término específico.
Las bases de datos vectoriales adoptan un enfoque fundamentalmente diferente. En lugar de filas y columnas, los puntos de datos se representan como vectores densos donde cada dimensión representa una característica aprendida de los datos. Estas incorporaciones vectoriales de alta dimensión existen en el espacio vectorial, donde las relaciones entre elementos se pueden medir geométricamente.
Debido a que cada dimensión representa una característica latente (una función inferida que se aprende a través de modelos matemáticos y algoritmos), las representaciones vectoriales capturan patrones ocultos. Una consulta de búsqueda vectorial para “smartphone” también puede devolver resultados semánticamente relacionados como “celular” o “dispositivo móvil”, incluso si esas palabras exactas no aparecen.
Al modelar datos en un espacio de alta dimensión y aplicar técnicas de indexación especializadas, las bases de datos vectoriales permiten realizar búsquedas de similitud de baja latencia en grandes conjuntos de datos, algo para lo que las bases de datos relacionales no fueron diseñadas.