정보 추출이란 무엇인가요?

다양한 모양의 블록을 보여주는 이미지

작성자

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

정보 추출이란 무엇인가요?

정보 추출(IE)은 반정형 또는 비정형 텍스트 데이터에서 정형 정보를 추출하여 체계적이고 검색 가능하며 기계가 읽을 수 있는 데이터로 변환하는 자동화된 프로세스입니다. 자연어 처리(NLP)는 입력 텍스트 내에서 중요한 데이터를 식별하기 위해 정보 추출을 활용합니다.

정보 추출 알고리즘은 이름, 관계, 사건, 감정 등 다양한 엔티티를 식별한 다음 이를 분류하고 나중에 사용할 수 있도록 데이터베이스에 저장합니다. 이렇게 생성된 정형 정보는 표준화된 형식을 가지며 일반적으로 해당 속성을 식별하는 행과 열에 저장됩니다. 표준화된 스토리지는 정형 데이터와 비정형 데이터를 구분하는 주요 차별화 요소입니다.

동일한 데이터베이스 내의 모든 데이터 값은 일관된 구조화된 형식을 따르며, 동일하게 정의된 속성을 유지합니다. 관계형 속성도 강조 표시되어 공유 속성을 기반으로 데이터베이스를 서로 연결할 수 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

정보 추출이 중요한 이유

정보 추출을 통해 기업은 문서를 실행 가능한 데이터 세트로 변환하고 여기에서 귀중한 통찰력을 얻을 수 있습니다. 정보 추출 기술이 지원하는 지능형 문서 처리(IDP) 시장은 2024년 23억 달러 규모에서 2030년까지 연평균 성장률(CAGR) 33.1%로 성장할 것으로 예상됩니다.1

정보 검색

정보 추출 시스템은 인공 지능(AI) 알고리즘을 사용하여 지식 기반에서 관련 데이터를 자동으로 찾고 검색하는 자동화된 정보 검색을 위한 기반을 마련합니다. 정보 검색은 대규모 언어 모델(LLM)이 도메인별 사용 사례에서 높은 정확도를 위해 더 많은 데이터에 액세스할 수 있는 프로세스인 검색 증강 생성(RAG)의 필수 구성 요소입니다. 

RAG는 LLM이 학습 데이터 외부의 더 많은 지식을 활용하여 더 나은 답변을 생성할 수 있기 때문에 질의 응답 작업에 적용하면 LLM 챗봇의 정확도를 높일 수 있습니다.

데이터 기반 의사 결정

비즈니스 리더는 추출된 정보를 활용하여 실시간으로 데이터 기반 의사 결정을 내릴 수 있습니다. IE는 정보를 수집, 정리, 저장, 조작 및 사용할 수 있도록 만드는 더 큰 정보 처리 주기의 예비 단계입니다. 

데이터 파이프라인은 온라인 주문과 같은 입력 지점을 데이터베이스에 연결하여 기업 전체에 정보를 전달합니다. 그 데이터를 기반으로 데이터 시각화 도구가 실시간으로 차트와 그래프를 생성하여, 전략적 의사 결정을 이끄는 실행 가능한 통찰력을 제공합니다. 

IE 시스템에서 출력된 대규모 정형 데이터 세트를 사용하여 보고서와 요약을 만들 수 있습니다. 또한 IE용 머신 러닝 알고리즘텍스트 요약을 수행하여 상세한 문서를 간결한 핵심 포인트로 정리하고 주석을 추가하여 빠르게 참고할 수 있도록 도와줍니다. 

예를 들어 의료 분야에서 정보 추출(IE)은 여러 파일에서 자동으로 환자 보고서를 생성하여 의사가 더 쉽게 문제를 진단하고 치료법을 처방할 수 있게 해줍니다. 금융 전문가들은 다양한 보고서, 뉴스 기사 및 기타 출처에서 추출된 정보를 활용하여 더욱 정확한 예측을 생성할 수 있습니다.

Mixture of Experts | 8월 28일, 에피소드 70

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

정보 추출 유형

정보 추출 작업은 식별하고 레이블이 지정되는 정보의 유형에 따라 분류됩니다. IE 시스템은 다음과 같은 작업을 처리할 수 있습니다. 

  • 명명된 엔티티 인식(NER) 
  • 관계 추출
  • 이벤트 추출 
  • 감정 분석

명명된 엔티티 인식(NER) 

명명된 엔티티 인식은 비정형 데이터에서 명명된 엔티티를 식별하는 IE 작업입니다. 명명된 엔티티는 고유하게 식별할 수 있는 실제 개체입니다. 기본적으로 데이터의 고유명사라고 할 수 있습니다. 명명된 엔티티에는 사람, 날짜, 회사, 장소 및 제품이 포함되며 물리적 또는 추상적일 수 있습니다. 

"2025년 1월 현재 IBM의 CEO는 Arvind Krishna입니다"라는 문장에서 명명된 엔티티에는 2025년 1월, Arvind Krishna, CEOIBM이 포함되어 있습니다. 

엔티티 연결

엔티티 연결은 여러 엔티티가 동일한 실제 개체를 참조하는지 여부를 파악하는 프로세스입니다. "Arvind Krishna", "Krishna" 및 IBM의 CEO"를 언급하는 기사에 대해 IE를 수행할 때 하위 작업을 연결하는 엔티티는 3개 모두를 동일한 인물에 대한 참조로 식별합니다. 개체 연결은 상호 참조 확인이라고도 합니다.

관계 추출(RE)

관계 추출은 데이터 원본에 있는 엔티티 간의 관계를 식별하여 분류하는 정보 추출 작업입니다. 엔티티 간의 관계를 파악하면 눈에 띄지 않을 수도 있는 통찰력을 얻을 수 있습니다. 

이 섹션의 시작 부분에 있는 예제 문장에서 RE 프로세스는 "Arvind Krishna"와 "IBM"의 관계를 "CEO"라는 직책으로 "근무 중"으로 연결합니다.

관계 추출과 관계성 추출 비교

관계 추출관계성 추출이라는 용어는 종종 같은 의미로 사용되지만, 일부 데이터 과학자는 미묘한 차이가 있다고 주장합니다. 관계성 추출(은 개체 간 관계를 파악하려는 모든 시도를 포괄하는 개념인 반면, 관계 추출은 이 작업을 머신 러닝 모델을 활용해 수행하는 경우에 주로 사용되는 용어입니다.

이벤트 추출

이벤트 추출은 IE 시스템이 입력 텍스트 본문에서 개별 이벤트를 인식하는 방법입니다. "약속" 또는 "모임"과 같은 단어는 날짜와 마찬가지로 이벤트 추출 시퀀스를 트리거할 수 있습니다. 이벤트 추출에는 이벤트 자체, 이벤트가 발생한 시간 및 날짜, 언급된 참가자가 포함됩니다. 

"Arvind Krishna가 2025년 1월에 열린 회의에 참석했다”라는 예시 문장에서, 이벤트 추출 알고리즘은 2025년 1월에 회의가 열렸다는 사실과 함께, 참석자 중 한 명이 IBM CEO인 Arvind Krishna라는 정보를 식별합니다.

감정 분석

감성 분석은 텍스트가 전달하는 느낌을 결정합니다. 감정 분석은 시장 조사를 수행하고 고객 행동을 이해하는 데 유용한 도구입니다. 

사용자 후기로 구성된 데이터 세트가 주어지면 IE 알고리즘은 제품에 대해 긍정, 부정 또는 중립적으로 느끼는 소비자의 비율을 알려주는 의미론적 통찰력을 제공할 수 있습니다. 그러면 제품 관리자는 이 통찰력을 바탕으로 현재 및 잠재적 사용자의 더 많은 관심을 끌 수 있도록 제품을 조정할 수 있습니다

정보 추출은 어떻게 이루어지나요?

정보 추출은 머신 러닝 알고리즘을 사용해 비정형 데이터 소스를 구문 분석하여 의미 있는 데이터를 식별하는 방식으로 작동합니다. IE 시스템은 검색된 데이터 엔티티에 레이블을 지정하고 효율적인 검색을 위해 체계적이고 쿼리가 가능한 데이터베이스에 저장합니다. 

정보 추출 기술에는 다음이 포함됩니다. 

  • 규칙 기반
  • 분류(머신 러닝)
  • 시퀀스 레이블링

이러한 방법은 상호 배타적인 것이 아니며, IE의 발전으로 인해 두 가지 방법을 결합하여 결과를 개선하는 하이브리드 모델이 등장했습니다.

규칙 기반 정보 추출

규칙 기반 정보 추출은 문서를 구문 분석하여 텍스트의 엔티티에 대해 알려진 사전 정의된 패턴과 정의인 '규칙'을 기반으로 엔티티를 식별합니다. 규칙 기반 IE는 반정형 데이터 소스(완전히 구조화되지는 않았지만 태그나 메타데이터와 같은 일부 식별 기능이 있는 데이터)에 가장 자주 적용됩니다. 

하향식 규칙 기반 IE는 일반적인 사례에서 특정 사례로 진행하는 방식으로 작동하는 반면, 상향식 방법은 그 반대입니다.

분류 기반 정보 추출

분류 기반 IE는 지도 학습 분류 작업으로 정보 추출에 접근하는 2단계 프로세스입니다. 먼저, 머신 러닝 모델을 레이블이 지정된 데이터 세트에 대해 학습시켜 엔티티와 해당 속성 간의 연관성을 학습하게 합니다. 그런 다음 모델이 새로운 비정형 데이터에서 식별한 엔티티에 대한 레이블을 예측합니다. 

시퀀스 레이블링

시퀀스 레이블링은 NLP의 초석이며 딥 러닝 모델을 사용하여 입력 시퀀스의 구성 요소(예: 챗봇 프롬프트의 단어)를 식별하고 레이블을 지정합니다. 시퀀스 레이블링은 신경망이 입력 데이터를 해석하는 방법을 정확히 알 수 있도록 하는 중요한 NLP 전처리 단계입니다. 

시퀀스 레이블링은 데이터의 엔티티를 식별하는 것 외에도 입력 시퀀스의 각 부분 간의 종속성을 포착합니다. 종속성은 입력 시퀀스의 한 부분이 다른 부분에 의존하여 올바르게 해석되는 특수한 유형의 관계입니다. 범용 기술(GPT)과 같은 트랜스포머 모델은 종속성을 파악하는 데 탁월하기 때문에 긴 입력 시퀀스에서도 컨텍스트 이해를 유지할 수 있습니다.

관련 솔루션
IBM watsonx Orchestrate

IBM watsonx Orchestrate를 사용하여 확장 가능한 AI 어시스턴트 및 에이전트를 쉽게 설계하고, 반복적인 작업을 자동화하고, 복잡한 프로세스를 간소화합니다.

watsonx Orchestrate 알아보기
자연어 처리 툴 및 API

강력하고 유연한 라이브러리, 서비스 및 애플리케이션 포트폴리오로 인공 지능의 비즈니스 가치를 가속화합니다.

NLP 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM watsonx Orchestrate를 통해 확장 가능한 AI 어시스턴트 및 에이전트를 쉽게 설계하고 반복적인 작업을 자동화하며 복잡한 프로세스를 간소화합니다.

watsonx Orchestrate 알아보기 NLP 솔루션 살펴보기