업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
GraphRAG는 지식 그래프(KG)와 같은 그래프 구조 데이터를 통합하는 검색 증강 생성(RAG)의 고급 버전입니다.1 의미적으로 유사한 텍스트를 검색하기 위해 벡터 검색에 의존하는 기본 RAG 시스템과 달리, GraphRAG는 그래프의 관계 구조를 활용해 도메인별 쿼리를 기반으로 정보를 검색하고 처리합니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
검색 증강 생성(RAG)은 벡터 데이터베이스, 외부 지식 소스, 내부 지식 기반에서 유사성 검색을 사용하여 관련 정보를 검색하는 기술입니다. 그런 다음 검색된 정보를 LLM과 결합하여 정확한 컨텍스트 인식 출력을 생성합니다. 기존 RAG 애플리케이션은 생성형 AI 애플리케이션에서 LLM의 기능을 향상하지만, 데이터의 복잡한 데이터 관계를 캡처하는 기능은 부족합니다. 멀티홉 추론(여러 소스의 정보를 결합하여 논리적 연결과 간접 추론을 통해 답을 도출), 관계형 컨텍스트, 계층적 데이터 이해와 같은 작업을 수행하는 데 어려움을 겪습니다. 예를 들어, 기존의 RAG 접근 방식은 개체 간의 관계를 추론해야 하기 때문에 "상대성 이론을 개발한 사람은 누구인가요?"와 같은 쿼리를 처리하는 데 어려움을 겪을 수 있습니다.
GraphRAG는 그래프 구조화 데이터를 활용하여 이 문제를 극복합니다. 이 데이터는 정보를 노드(사람, 장소 등), 에지(노드 간 관계), 레이블(노드와 에지의 범주를 정의하는 속성)로 구성합니다. 예를 들어, 지식 그래프는 'Albert Einstein—developed—the theory of relativity'와 같은 정보를 그래프 구조화된 형태로 나타낼 수 있습니다. 이를 통해 GraphRAG가 해당 정보를 보다 쉽게 검색하고 처리할 수 있습니다. 이 예시에서 노드는 ‘Albert Einstein’과 ‘theory of relativity’이고, 에지는 ‘developed’입니다.
GraphRAG는 네 가지 주요 구성 요소를 통해 작동합니다.
사용자의 쿼리는 그래프 구조와 관련된 주요 엔티티 및 관계를 식별하기 위해 사전 처리됩니다. 쿼리를 그래프 내 노드와 에지에 매핑하기 위해 Named Entity Recognition(NER)과 머신러닝 기반 관계 추출(Relational Extraction)과 같은 기술이 사용됩니다. 예를 들어, "누가 상대성 이론을 개발했나요?"라는 쿼리는 'Albert Einstein'을 노드로, 'developed'를 그래프에서 검색할 관계로 식별합니다. 그래프 쿼리 언어인 Cypher와 같은 도구는 지식 그래프에서 도메인별 데이터를 가져오는 데 사용됩니다.
리트리버(Retriever)는 처리된 쿼리를 기반으로 외부 그래프 데이터 소스에서 관련 콘텐츠를 찾아 추출합니다. 텍스트나 이미지에 벡터 임베딩을 사용하는 기존의 RAG 시스템과 달리, GraphRAG 리트리버는 시맨틱 신호와 구조적 신호를 모두 활용하여 그래프 구조의 데이터를 처리합니다. 그래프 순회 알고리즘(관련 노드와 에지를 찾기 위해 그래프를 탐색하는 너비 우선 탐색(BFS) 또는 깊이 우선 탐색(DFS)과 같은 방법)과 같은 기술을 사용합니다. 추가 기술로는 그래프 신경망(GNN)(그래프 구조를 학습하여 데이터를 효과적으로 검색하는 고급 AI 모델), 적응형 검색(검색할 그래프의 양을 동적으로 조정하여 관련 없는 정보나 노이즈를 줄임), 임베딩 모델이 있습니다. "누가 상대성 이론을 개발했나요?"라는 쿼리의 경우, 리트리버는 그래프에서 'theory of relativity' 노드를 찾고 'developed by' 관계를 따라 'Albert Einstein'을 찾습니다.
검색된 그래프 데이터는 그래프 가지치기, 순위 재지정, 증강과 같은 기술을 통해 관련성이 없거나 노이즈가 많은 정보를 제거하도록 개선됩니다. 오거나이저 도구는 검색된 그래프가 중요한 맥락 정보를 보존하는 동시에 깔끔하고 간결하며 처리할 준비가 되어 있는지 확인하는 데 도움이 됩니다. "누가 상대성 이론을 개발했나요?"라는 쿼리의 경우, 오거나이저는 검색된 그래프 데이터에서 관련 없는 노드와 에지를 제거하여, 'Albert Einstein—developed—theory of relativit'라는 관련 관계만 남도록 개선합니다.
그런 다음 정리된 그래프 데이터를 사용하여 최종 출력을 생성합니다. 여기에는 LLM을 사용하여 텍스트 기반 답변을 생성하거나 분자 설계 또는 지식 그래프 확장과 같은 과학 작업을 위한 새로운 그래프 구조를 만드는 것이 포함될 수 있습니다. "누가 상대성 이론을 개발했나요?"라는 쿼리의 경우, GraphRAG는 그래프에서 'Albert Einstein을 검색하여 'Albert Einstein이 상대성 이론을 개발했습니다'라는 답변을 생성합니다. 생성형 AI 기법은 최종 응답을 합성하는 데 사용됩니다.
GraphRAG는 그래프 기반 추론, 벡터 검색, 생성형 AI를 결합하여, 깊은 맥락 정보를 필요로 하는 도메인별 작업을 처리함으로써 산업 전반에 걸쳐 혁신을 이끌어냅니다. 다음은 GraphRag의 주요 활용 사례 중 일부입니다.
GraphRAG는 쿼리 중심 텍스트 요약에 사용할 수 있습니다. 그래프 구조로 표현된 텍스트에서 정보를 검색하고 합성하여 특정 사용자 쿼리에 답변하는 데 중점을 둡니다. 한 연구에서는 팟캐스트 전사본이나 뉴스 기사와 같은 대규모 데이터셋에 대해 전반적 탐색 질문을 답변하는 과정에서 GraphRAG의 효율성이 입증되었습니다.3 포괄적이고 다양한 인사이트가 필요한 작업에서 기존 벡터 기반 RAG 시스템을 능가했습니다. 예를 들어, GraphRAG는 기술 리더들과의 대화를 담은 팟캐스트 데이터셋(약 100만 토큰)과 보건, 비즈니스, 기술 주제를 다룬 뉴스 데이터셋(약 170만 토큰)을 대상으로 테스트되었습니다. 질문에는 "기술 리더들은 개인정보 보호법을 어떻게 바라보나요?", "주요 공공 보건 우선 순위는 무엇인가요?" 등이 포함되었습니다.
GraphRAG는 이러한 데이터 세트를 처리하기 위해 엔티티(예: '개인정보 보호법')와 관계(예: '기술에 미치는 영향')를 기반으로 지식 그래프를 구축하고, 이를 계층적 커뮤니티(상위 주제에서 하위 주제로 연결된 노드 그룹)로 구성합니다. 미리 생성된 커뮤니티 요약을 통해 시스템은 관련 인사이트를 효율적으로 검색하고 결합할 수 있습니다. 기존 RAG에 비해 GraphRAG는 생성된 답변에서 더 높은 포괄성(72~83%)과 다양성(62~82%)을 달성했으며, 루트 수준 요약에 필요한 토큰 수는 최대 97%까지 줄었습니다. 이러한 기능 덕분에 GraphRAG는 언론, 교육, 연구와 같은 영역에서 의미를 도출하는 작업에 이상적인 도구입니다.
전자 상거래 및 엔터테인먼트와 같은 도메인에서 GraphRAG는 챗봇 및 추천 엔진이 개인화된 경험을 제공할 수 있도록 지원합니다. 예를 들어, 전자상거래에서는 사용자와 제품 간의 과거 상호 작용을 그래프로 구성할 수 있습니다. GraphRAG는 사용자 선호도와 행동을 나타내는 주요 하위 그래프를 추출하여 증가하는 사용자 상호 작용 데이터의 양을 관리하는 데 도움이 됩니다. 연구에 따르면 여러 개의 리트리버를 사용하여 관련 하위 그래프를 추출하면 사용자 동작 예측이 향상되고, 유사한 과거 문제의 하위 그래프를 검색하면 고객 서비스 질의응답 시스템의 품질이 향상되는 것으로 나타났습니다.4
의료 분야에서 GraphRAG는 그래프 데이터베이스 내에서 질병, 증상, 치료 간의 관계를 분석하여 의사가 복잡한 증상을 가진 환자를 진단할 수 있도록 지원합니다. 관련 의학 연구, 사례 보고서, 약물 정보를 검색하여 가능한 진단을 제안하고 효과적인 치료 옵션을 강조하며, 잠재적인 약물 상호 작용에 대한 경고까지 제공합니다. 이 기능을 통해 의료 전문가는 보다 정확한 판단을 내리고, 진단 오류를 줄이며, 환자에게 맞춤형 치료를 제공할 수 있습니다.
한 예로, 최근 연구에서는 의료 애플리케이션을 위해 설계된 프레임워크인 MedGraphRAG를 도입한 사례가 있습니다.5 의료 데이터를 개인 사용자 데이터(예: 의료 보고서), 최신 동료 검토 의료 문헌, 기초 의학 사전 등 세 수준으로 구성하여 정확성, 추적 가능성, 관련성을 확보합니다. 계층적 그래프 구조와 'U-retrieve' 전략을 사용하여 사용자 쿼리에 대한 정보를 효율적으로 검색하고 합성함으로써, 출처 인용과 함께 신뢰할 수 있는 증거 기반 응답을 생성하여 LLM의 성능을 개선합니다. 이 프레임워크는 안전하고 투명하며 효율적인 임상 워크플로의 잠재력을 보여 주며, 의료 전문가에게 근거 있고 실행 가능한 인사이트를 제공합니다.
GraphRAG는 예상 동작에서 벗어나는 비정상적인 패턴을 식별합니다. 예를 들어, 금융 서비스에서는 의심스러운 거래 패턴을 감지하여 사기를 방지하거나 고객 행동을 분석하여 크로스 셀링 기회를 발견할 수 있습니다. GraphRAG는 여러 계좌 간에 여러 개의 소액 거래를 연결함으로써 더 큰 규모의 사기 수법을 찾아내고, 은행이 위험 관리를 강화하며 보다 개인화된 서비스를 제공할 수 있도록 지원합니다.
GraphRAG는 지식에 더 쉽게 접근하고 특정 쿼리에 맞춤화된 방식으로 문서를 정리하고 검색하여 지식 관리를 향상할 수 있습니다. 다양한 문서 간의 컨텍스트와 관계를 분석하여 가장 관련성이 높은 정보를 빠르고 효과적으로 추출할 수 있도록 지원합니다. GraphRAG의 두드러진 사용 사례 중 하나는 로펌으로, 방대한 법률 문서 모음을 관리하는 데 탁월합니다. GraphRag는 수천 개의 법률 문서 내의 관계와 컨텍스트를 분석하여 관련 사례 판례 또는 법적 참조를 효율적으로 검색하고, 조사 워크플로를 간소화하며 정확도를 크게 개선할 수 있습니다.
GraphRAG 시스템은 복잡한 데이터 관계 관리와 같은 문제를 제시하여 효율적인 검색 및 언어 모델과의 통합을 보장합니다. 이러한 과제는 신중한 그래프 스키마 설계, 최적화된 쿼리 전략, 강력한 도구 활용을 통해 해결할 수 있습니다. GraphRAG와 관련된 주요 과제는 다음과 같습니다.
데이터 양이 증가함에 따라 GraphRAG 시스템을 확장하기가 어려워졌습니다. 도전 과제로는 비정형 데이터 관리, 효율적인 그래프 저장, 그래프 쿼리 최적화, 하위 그래프 샘플링, 반응형 생성, 검색된 구성 요소 관리, 학습 및 미세 조정 등이 포함됩니다. GPU 가속, 모델 압축, 유지 관리와 같은 고급 하드웨어 솔루션을 구현하면 복잡성이 더욱 가중됩니다.
응집력 있는 GraphRAG 시스템을 설계하려면 쿼리 프로세서, 리트리버, 오거나이저, 제너레이터 구성 요소 간의 원활한 상호 작용이 필요합니다. 효율성과 정확성을 유지하면서 이러한 구성 요소가 조화롭게 작동하도록 하는 것은 복잡한 과제입니다.
다단계 추론에서 낮은 오류율을 보장하는 것은 멀티홉 검색 및 생성에서 오류가 누적되기 때문에 어렵습니다.
그래프의 관계 구조는 내부의 연결과 패턴을 통해 개인 데이터가 드러날 수 있어, 민감한 정보가 유출될 위험이 상당합니다. 전체 GraphRAG 파이프라인에서 이러한 정보를 보호하려면 강력한 개인정보 보호 기술이 필요합니다. GraphRAG 시스템은 그래프 구조의 악용이나 프롬프트 조작과 같은 적대적 공격에 취약하므로, 보다 강화된 보안 조치가 필요합니다.
GraphRag는 노드 간의 명시적 관계를 통해 향상된 설명 가능성을 제공하지만 명확하고 해석 가능한 추론 경로 또는 설명을 생성하는 것은 여전히 어려운 과제입니다. 이러한 설명이 포괄적이고 시스템의 논리에 충실하도록 하는 것은 의료, 법률, 금융 등과 같은 중요한 분야에서 신뢰를 확보하는 데 매우 중요합니다.
GraphRAG 시스템은 오픈 소스 옵션을 비롯한 다양한 도구와 프레임워크를 사용해 문서 처리, 지식 그래프 생성, 시맨틱 검색, LLM 통합을 지원함으로써 구현될 수 있습니다. 인기 있는 도구로는 LangChain, LlamaIndex, Neo4j, OpenAI 등이 있으며, GitHub와 같은 플랫폼에서 추가 리소스 및 튜토리얼이 제공됩니다.
LlamaIndex는 문서를 인덱싱하고, 엔티티 및 관계를 추출하여 지식 그래프를 만들고, 벡터 임베딩을 생성하고, GPT와 같은 LLM과 통합하는 데 사용됩니다. Neo4j는 그래프 구조를 저장하고 관리하기 위한 데이터베이스 역할을 하여 그래프 순회 및 시맨틱 관계를 통해 효율적인 검색을 가능하게 합니다.
이러한 도구들은 벡터 임베딩, 투명성을 위한 메타데이터 처리, 그리고 컨텍스트를 인식한 응답 생성을 활용하여 시맨틱 검색을 가능하게 합니다. API를 통해 통합된 OpenAI GPT 모델을 포함한 LLM은 검색된 그래프 데이터를 기반으로 정확하고 관련성 높은 답변을 생성하는 데 도움이 됩니다.
GraphRAG는 선형 검색 방식에 한계가 있는 기존 RAG 시스템에서 크게 발전한 것으로, 지식 그래프, 시맨틱 검색, 고급 언어 모델의 강력한 기능을 결합합니다. 업계가 더 깊은 이해와 상호 연결된 인사이트를 요구함에 따라 GraphRAG는 핵심 기술이 될 것입니다. 향후 더 스마트하고 역동적이며 높은 적응력을 갖춘 정보 시스템을 구현할 수 있게 될 것입니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
1 Han, H., Wang, Y., Shomer, H., Guo, K., Ding, J., Lei, Y., ... & Tang, J. (2024). Retrieval-augmented generation with graphs (graphrag). arXiv preprint arXiv:2501.00309.
2 Larson, J., & Truitt, S. (2024). GraphRAG: Unlocking LLM discovery on narrative private data. Microsoft Research Blog. https://www.microsoft.com/kr-ko/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/
3 Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., ... & Larson, J. (2024). From local to global: A graph rag approach to query-focused summarization. arXiv preprint arXiv:2404.16130.
4 Peng, B., Zhu, Y., Liu, Y., Bo, X., Shi, H., Hong, C., ... & Tang, S. (2024). Graph retrieval-augmented generation: A survey. arXiv preprint arXiv:2408.08921.
5 Wu, J., Zhu, J., Qi, Y., Chen, J., Xu, M., Menolascina, F., & Grau, V. (2024). Medical graph rag: Towards safe medical large language model via graph retrieval-augmented generation. arXiv preprint arXiv:2408.04187.