¿Qué es GraphRAG?

¿Qué es GraphRAG?

GraphRAG es una versión avanzada de generación aumentada por recuperación (RAG, por sus siglas en inglés) que incorpora datos estructurados en gráficos, como gráficos de conocimiento (KGs).1 A diferencia de los sistemas RAG de referencia que se basan en la búsqueda vectorial para recuperar texto semánticamente similar, GraphRAG aprovecha la estructura relacional de los gráficos para recuperar y procesar información basada en consultas específicas del dominio. 

GraphRAG fue introducido por Microsoft Investigación en 2024 para abordar las limitaciones de los modelos de lenguaje grandes (LLM).2 Los LLM tradicionales a menudo tienen dificultades con flujos de trabajo complejos, especialmente en el razonamiento de datos privados o estructurados, porque carecen de la capacidad de comprender las relaciones entre entidades. GraphRAG resuelve este problema mediante el uso de bases de datos de gráficos para modelar estas relaciones, lo que le permite manejar consultas complejas, recuperar información contextual y mejorar la precisión en aplicaciones de IA generativa.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Cómo funciona GraphRAG?

La generación aumentada por recuperación (RAG, por sus siglas en inglés) es una técnica que recupera información relevante mediante búsqueda de similitud a partir de bases de datos vectoriales, fuentes externas de conocimiento y bases de conocimiento internas. Luego combina esta información recuperada con LLM para generar resultados precisos y conscientes del contexto. Si bien las aplicaciones RAG tradicionales mejoran la funcionalidad de los LLM en aplicaciones de IA generativa, carecen de la capacidad de capturar relaciones de datos complejas en los datos. Le cuesta realizar tareas como el razonamiento multihop (combinar información de múltiples fuentes para obtener respuestas a través de conexiones lógicas e inferencias indirectas), el contexto relacional y la comprensión de datos jerárquicos. Por ejemplo, un enfoque RAG tradicional podría tener dificultades con una consulta como "¿Quién desarrolló la teoría de la relatividad?" porque requiere un razonamiento sobre las relaciones entre entidades. 

GraphRAG supera este problema incorporando datos estructurados en grafos, que organizan la información como una red de nodos (entidades como personas o lugares), bordes (relaciones entre esas entidades) y etiquetas (atributos que definen la categoría de un nodo y un borde). Por ejemplo, un gráfico de conocimiento podría representar "Albert Einstein desarrolló la teoría de la relatividad" como fragmentos de información estructurados en gráficos, lo que facilita que GraphRAG recupere y procese esta información. En este ejemplo, los nodos son "Albert Einstein" y "teoría de la relatividad", y el borde es "desarrolló".

Arquitectura GraphRAG

Componentes de GraphRAG

GraphRAG funciona a través de cuatro componentes principales:

  1. Procesador de consultas

  2. Recuperador

  3. Organizador

  4. Generador

Procesador de consultas

La consulta del usuario se preprocesa para identificar entidades clave y relaciones relevantes para la estructura del gráfico. Se utilizan técnicas como reconocimiento de entidades nombradas (NER) y la extracción relacional de machine learning para asignar la consulta a nodos y bordes dentro del grafo. Por ejemplo, una consulta como "¿Quién desarrolló la teoría de la relatividad?" identifica a "Albert Einstein" como un nodo y " desarrolló" como la relación a buscar en el grafo. Las herramientas como Cypher, un lenguaje de consulta de grafos, se emplean para obtener datos específicos de dominio a partir de grafos de conocimiento. 

Recuperador

El recuperador localiza y extrae contenido relevante de fuentes de datos gráficas externas en función de la consulta procesada. A diferencia de los sistemas RAG tradicionales que se basan en incorporaciones para texto o imágenes, los recuperadores GraphRAG manejan datos estructurados por gráficos aprovechando señales semánticas y estructurales. Utilizan técnicas como algoritmos de recorrido de gráficos (métodos como la búsqueda en amplitud (BFS) o la búsqueda en profundidad (DFS) que exploran el gráfico para localizar nodos y bordes relevantes). Las técnicas adicionales incluyen redes neuronales gráficas (GNN) (modelos de IA que aprenden la estructura de los grafos para recuperar datos de manera efectiva), recuperación adaptativa (ajusta dinámicamente qué parte del grafo buscar, reduciendo la información irrelevante o el ruido) y modelos de incorporación. Para la consulta "¿Quién desarrolló la teoría de la relatividad?", el recuperador localiza el nodo "teoría de la relatividad" en el grafo y sigue la relación "desarrollada por" para encontrar "Albert Einstein".

Organizador

Los datos recuperados de grafos se refinan para eliminar información irrelevante o ruidosa mediante técnicas como la poda, el reclasificación y la ampliación de grafos. El organizador ayuda a garantizar que el grafo recuperado esté limpio, sea compacto y esté listo para el procesamiento mientras conserva la información contextual crítica. Para la consulta "¿Quién desarrolló la teoría de la relatividad?", el organizador refina los datos del grafo recuperados eliminando nodos y bordes irrelevantes, lo que ayuda a garantizar que solo se conserve la relación relevante, "Albert Einstein—desarrolló—la teoría de la relatividad". 

Generador

Los datos del grafo limpiados se emplean entonces para producir la salida final. Esto puede implicar generar respuestas basadas en texto utilizando LLM o crear nuevas estructuras gráficas para tareas científicas, como el diseño de moléculas o la expansión de gráficos de conocimiento. Para la consulta "¿Quién desarrolló la teoría de la relatividad?", GraphRAG recupera "Albert Einstein" del gráfico y genera la respuesta: "Albert Einstein desarrolló la teoría de la relatividad". Se utilizan técnicas de IA generativa para sintetizar la respuesta final. 

Ejemplo de GraphRAG

Aplicaciones de GraphRAG

GraphRAG es transformador en todas las industrias, combinando razonamiento basado en gráficos, búsqueda vectorial e IA generativa para manejar tareas específicas de dominio que exigen información contextual profunda. A continuación, exploramos algunas de las aplicaciones clave de GraphRAG:

  1. Resumen de texto centrado en consultas (QFS)

  2. Recomendaciones personalizadas

  3. Apoyo a la toma de decisiones

  4. Detección de fraude y prevención

  5. Gestión y recuperación del conocimiento

Resumen de texto centrado en consultas (QFS)

GraphRAG se puede utilizar para el resumen de texto centrado en consultas. Se centra en responder consultas específicas de los usuarios recuperando y sintetizando información a partir de una representación del texto estructurada en gráficos. Un estudio demostró la eficacia de GraphRAG para responder preguntas exploratorias globales sobre grandes conjuntos de datos, como transcripciones de podcasts y artículos de noticias.3 Superó a los sistemas RAG tradicionales basados en vectores en tareas que requerían insights completos y diversos. Por ejemplo, GraphRAG se probó en un conjunto de datos de podcast (~1 millón de tokens) que caracterizaba conversaciones con líderes tecnológicos y un conjunto de datos de noticias (~1.7 millones de tokens) que cubren temas de salud, negocios y tecnología. Las preguntas incluyeron “¿Cómo ven los líderes tecnológicos las leyes de privacidad?” y “¿Cuáles son las prioridades clave de estado público?” 

GraphRAG procesa estos conjuntos de datos construyendo un gráfico de conocimiento con entidades (por ejemplo, “leyes de privacidad”) y relaciones (por ejemplo, “impacto en la tecnología”), organizándolos en comunidades jerárquicas (grupo de nodos conectados que organizan temas de alto nivel en subtemas específicos). Los resúmenes comunitarios pregenerados permiten que el sistema recupere y combine insights relevantes de manera eficiente. En comparación con el RAG tradicional, GraphRag logró una mayor exhaustividad (72-83 %) y diversidad (62-82 %) en las respuestas generadas, al tiempo que requirió hasta 97 % menos tokens para los resúmenes a nivel raíz. Esta capacidad convierte a GraphRAG en una herramienta ideal para tareas de creación de sentido en ámbitos como el periodismo, la educación y la investigación.

Recomendaciones personalizadas

En dominios como el comercio electrónico y el entretenimiento, GraphRAG permite que los chatbots y los motores de recomendación ofrezcan experiencias personalizadas. Por ejemplo, en el comercio electrónico, las interacciones pasadas entre usuarios y productos pueden formar un gráfico. GraphRAG ayuda a gestionar el creciente volumen de datos de interacción del usuario mediante la extracción de subgráficos clave que revelan las preferencias y comportamientos del usuario. La investigación ha demostrado que el uso de múltiples recuperadores para extraer subgráficos relevantes mejora la predicción de acciones del usuario, mientras que la recuperación de subgráficos de problemas pasados similares mejora la calidad de los sistemas de respuesta de preguntas de atención al cliente.4

Apoyo a la toma de decisiones

En la atención médica, GraphRAG ayuda a los médicos a diagnosticar pacientes con síntomas complejos mediante el análisis de las relaciones entre enfermedades, síntomas y tratamientos dentro de una base de datos gráfica. Recupera estudios médicos relevantes, informes de casos e información sobre medicamentos para sugerir posibles diagnósticos, resaltar opciones de tratamiento eficaces e incluso advertir sobre posibles interacciones farmacológicas. Esta capacidad permite a los profesionales de la salud tomar decisiones más informadas, reducir los errores de diagnóstico y brindar atención personalizada a los pacientes.  

Por ejemplo, un estudio reciente introdujo MedGraphRAG, una infraestructura diseñada para aplicaciones médicas.5 Organiza los datos médicos en tres niveles: datos privados del usuario (por ejemplo, informes médicos), literatura médica reciente revisada por pares y diccionarios médicos fundacionales, lo que ayuda a garantizar la precisión, la trazabilidad y la relevancia. Mediante una estructura gráfica jerárquica y una estrategia de "recuperación en U", recupera y sintetiza de manera eficiente la información para las consultas de los usuarios, mejorando el rendimiento de los LLM al generar respuestas confiables basadas en evidencia con citas de fuentes. Este marco demuestra el potencial de flujos de trabajo clínicos seguros, transparentes y eficientes, ayudando a los profesionales de la salud con insights fundamentados y aplicables en la práctica.

Detección de fraude y prevención

GraphRAG identifica patrones inusuales que se desvían del comportamiento esperado. Por ejemplo, en los servicios financieros, puede detectar patrones de transacciones sospechosas para prevenir fraudes o descubrir oportunidades de venta cruzada mediante el análisis del comportamiento del cliente. Al conectar múltiples transacciones pequeñas entre cuentas, GraphRAG puede revelar esquemas fraudulentos más grandes, ayudando a los bancos a mejorar la gestión de riesgos y brindar servicios más personalizados. 

Gestión y recuperación del conocimiento

GraphRAG puede mejorar la gestión del conocimiento organizando y recuperando documentos de manera que el conocimiento sea más accesible y adaptado a consultas específicas. Analiza el contexto y las relaciones entre varios documentos y ayuda a extraer la información más relevante de forma rápida y eficaz. Por ejemplo, un caso de uso destacado de GraphRAG es en los bufetes de abogados, donde se destaca en la gestión de vastas colecciones de documentos legales. Al analizar las relaciones y el contexto dentro de miles de documentos legales, GraphRAG puede recuperar de manera eficiente precedentes de casos relevantes o referencias legales, agilizando los flujos de trabajo de investigación y mejorando significativamente la precisión.

AI Academy

El auge de la IA generativa para las empresas

Aprenda sobre el auge histórico de la IA generativa y lo que significa para las empresas.

Desafíos de GraphRAG

Los sistemas GraphRAG presentan desafíos, como gestionar relaciones de datos complejas, ayudar a garantizar una recuperación eficiente e integrarse con modelos de lenguaje. Estos desafíos pueden abordarse mediante un cuidadoso diseño de esquemas gráficos, estrategias de consulta optimizadas y el aprovechamiento de herramientas sólidas. Los principales desafíos asociados con GraphRAG son:

  1. Escalabilidad

  2. Optimización de la integración de componentes

  3. Confiabilidad

  4. Privacidad y seguridad

  5. Justificabilidad

Escalabilidad

A medida que aumenta el volumen de datos, es difícil escalar los sistemas GraphRAG. Los desafíos incluyen la administración de datos no estructurados, el almacenamiento eficiente de gráficos, la optimización de consultas de gráficos, el muestreo de subgrafos, la generación receptiva, la organización de componentes recuperados, la capacitación y el ajuste fino. La implementación de soluciones de hardware avanzadas, como la aceleración de GPU, la compresión de modelos y el mantenimiento, agrega mayor complejidad.

Optimización de la integración de componentes

El diseño de un sistema GraphRAG cohesivo requiere una interacción perfecta entre los componentes del procesador de consultas, el recuperador, el organizador y el generador. Garantizar que estos componentes funcionen armoniosamente mientras se mantiene la eficiencia y la precisión es un desafío complejo.

Confiabilidad

Garantizar tasas de error bajas en el razonamiento de varios pasos es un desafío debido a la acumulación de errores en la recuperación y generación de múltiples saltos.

Privacidad y seguridad

La estructura relacional de los gráficos introduce riesgos significativos de fuga de información confidencial, ya que las conexiones y los patrones dentro del gráfico pueden revelar datos privados. Proteger dicha información en todo el pipeline de GraphRAG requiere técnicas sólidas de preservación de la privacidad. Los sistemas GraphRAG son susceptibles a ataques adversarios, incluida la explotación de estructuras gráficas y la manipulación de instrucciones, lo que enfatiza aún más la necesidad de mejorar las medidas de seguridad.

Explicabilidad

Si bien GraphRAG ofrece una mejor explicabilidad a través de relaciones explícitas entre nodos, generar rutas de razonamiento o explicaciones claras e interpretables sigue siendo un desafío. Asegurar que estas explicaciones sean completas y fieles a la lógica del sistema es crítico para la confianza en dominios de alto riesgo como la atención médica, el derecho y las finanzas.

Marcos para construir un sistema GraphRAG

Los sistemas GraphRAG se pueden implementar mediante el uso de diversas herramientas y marcos, incluidas las opciones de código abierto, para admitir el procesamiento de documentos, la creación de gráficos de conocimiento, la búsqueda semántica y la integración de LLM. Entre las herramientas más populares se encuentran LangChain, LlamaIndex, Neo4j y OpenAI, con recursos y tutoriales adicionales disponibles en plataformas como GitHub. 

LlamaIndex se utiliza para indexar documentos, extraer entidades y relaciones para crear grafos de conocimiento, generar incorporaciones vectoriales e integrarse con LLM como GPT. Neo4j sirve como base de datos para almacenar y gestionar estructuras de grafos, lo que permite una recuperación eficiente a través del recorrido de grafos y las relaciones semánticas. 

Estas herramientas trabajan juntas para permitir la búsqueda semántica mediante el uso de incorporaciones vectoriales, manejo de metadatos para transparencia y generación de respuestas contextuales. Los LLM, incluidos los modelos OpenAI GPT, integrados a través de API, ayudan a producir respuestas precisas y relevantes basadas en los datos gráficos recuperados. 

GraphRAG es un gran paso adelante con respecto a los sistemas RAG tradicionales, que están limitados por métodos de recuperación lineal. Combina el poder de los gráficos de conocimiento, la búsqueda semántica y los modelos de lenguaje avanzados. A medida que las industrias exigen una comprensión más profunda e insights interconectados, GraphRAG se convertirá en una tecnología clave. Permitirá contar con sistemas de información más inteligentes, dinámicos y altamente adaptables en el futuro.

AI Academy

El auge de la IA generativa para las empresas

Aprenda sobre el auge histórico de la IA generativa y lo que significa para las empresas.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo
Notas de pie de página

1 Han, H., Wang, Y., Shomer, H., Guo, K., Ding, J., Lei, Y., ... & Tang, J. (2024). Retrieval-augmented generation with graphs (graphrag). arXiv preprint arXiv:2501.00309.

2 Larson, J., & Truitt, S. (2024). GraphRAG: Unlocking LLM discovery on narrative private data. Microsoft Research Blog. https://www.microsoft.com/mx-es/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/

3 Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., ... & Larson, J. (2024). From local to global: A graph rag approach to query-focused summarization. arXiv preprint arXiv:2404.16130.

4 Peng, B., Zhu, Y., Liu, Y., Bo, X., Shi, H., Hong, C., ... & Tang, S. (2024). Graph retrieval-augmented generation: A survey. arXiv preprint arXiv:2408.08921.

5 Wu, J., Zhu, J., Qi, Y., Chen, J., Xu, M., Menolascina, F., & Grau, V. (2024). Medical graph rag: Towards safe medical large language model via graph retrieval-augmented generation. arXiv preprint arXiv:2408.04187.