업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
엔티티 청크 또는 엔티티 추출이라고도 하는 Named Entity Recognition(NER)은 텍스트 본문에서 사전 정의된 객체 카테고리를 식별하는 자연어 처리(NLP)의 구성 요소입니다.
이러한 카테고리에는 개인, 조직, 장소, 시간, 수량, 의료 코드, 금전적 가치와 백분율 등의 표현이 포함될 수 있지만, 이에 국한되지는 않습니다. 기본적으로 NER은 텍스트 문자열(예: 문장, 단락 또는 전체 문서)을 가져와서, 각 카테고리를 지칭하는 엔티티를 식별하고 분류하는 프로세스입니다.
제6차 메시지 이해 컨퍼런스(MUC-6)에서 "NER"이라는 용어가 처음 사용되었을 때, 목표는 대량의 비정형 텍스트를 처리하고 주요 정보를 식별하는 정보 추출 작업을 간소화하는 것이었습니다. 그 이후로 NER은 머신 러닝과 딥 러닝 기술의 발전에 힘입어 확장되고 발전해 왔습니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
2019년 설문 조사에 따르면 약 64%의 기업이 내부 리소스의 정형 데이터에 의존하고 있지만, 18% 미만의 기업이 비즈니스 의사 결정을 내리기 위해 비정형 데이터 및 소셜 미디어 댓글을 활용하고 있습니다1.
비정형 데이터 추출을 위해 NER을 활용하는 조직은 다양한 접근 방식에 의존하지만, 대부분은 규칙 기반 접근 방식, 머신 러닝 접근 방식 및 하이브리드 접근 방식의 3가지 카테고리에 속합니다.
NER이 시작된 이래로 몇 가지 중요한 방법론적 발전이 있었으며, 특히 딥 러닝 기반 기술에 의존하는 발전이 있었습니다. 최신 버전에는 다음이 포함됩니다.
NER의 첫 번째 단계는 주석이 달린 텍스트의 데이터 세트를 집계하는 것입니다. 데이터 세트에는 명명된 엔터티에 라벨이 지정되거나 표시되어 해당 유형을 나타내는 텍스트의 예가 포함되어야 합니다. 주석은 수동으로 또는 자동화된 방법을 사용하여 수행할 수 있습니다.
데이터 세트가 수집되면 텍스트를 정리하고 형식을 지정해야 합니다. 불필요한 문자를 제거하거나, 텍스트를 정규화하거나, 텍스트를 문장 또는 토큰으로 분할해야 할 수 있습니다.
이 단계에서는 사전 처리된 텍스트에서 관련 특징을 추출합니다. 이러한 기능에는 품사 태깅(POS 태깅), 단어 임베딩, 컨텍스트 정보 등이 포함될 수 있습니다. 기능 선택은 조직이 사용하는 특정 NER 모델에 따라 달라집니다.
다음 단계는 주석이 달린 데이터 세트와 추출된 특징을 사용하여 머신 러닝 또는 딥 러닝 모델을 학습시키는 것입니다. 이 모델은 텍스트 내 단어 간의 패턴과 관계뿐만 아니라, 그에 해당하는 명명된 엔티티 라벨을 식별하는 방법을 학습합니다.
NER 모델을 학습시킨 후에는 해당 모델은 그 성능을 가늠하기 위해 평가되어야 합니다. 모델이 명명된 엔티티를 얼마나 정확하게 식별하고 분류하는지를 나타내는 정밀도, 재현율 및 F1 점수와 같은 메트릭을 측정할 수 있습니다.
평가 결과에 따라 모델을 구체화하여 성능을 향상시킵니다. 여기에는 하이퍼매개변수 조정, 학습 데이터 수정 및/또는 고급 기술(예: 앙상블 또는 도메인 적응) 사용이 포함될 수 있습니다.
이 단계에서는 새로운 미학습 텍스트에 대한 추론에 모델을 사용할 수 있습니다. 모델은 입력 텍스트를 가져와서 전처리 단계를 적용하고, 관련 특징을 추출하여 궁극적으로 텍스트의 각 토큰이나 구간에 대해 명명된 엔티티 라벨을 예측합니다.
NER 모델의 출력은 결과를 구체화하고/하거나 컨텍스트 정보를 추가하기 위해 후처리 단계를 거쳐야 할 수 있습니다. 추가 보강을 위해 명명된 엔티티를 지식 기반이나 데이터베이스에 연결하는 엔티티 연결과 같은 작업을 완료해야 할 수도 있습니다.
Named Entity Recognition 시스템을 구현하는 가장 쉬운 방법은 애플리케이션 프로그래밍 인터페이스(API)를 사용하는 것입니다. NER API는 NER 기능에 대한 액세스를 제공하는 웹 기반 또는 로컬 인터페이스입니다. NER API의 몇 가지 인기 있는 예는 다음과 같습니다.
스탠포드 대학교에서 개발한 Stanford NER은 표준 엔티티 추출 라이브러리로 널리 간주되는 Java 구현입니다. CRF를 기반으로 하며 명명된 개체를 추출하기 위한 사전 학습된 모델을 제공합니다.
Python으로 작성되었으며 속도와 사용자 친화성으로 유명한 SpaCy는 고급 NLP를 위한 오픈 소스 소프트웨어 라이브러리입니다. 최신 연구를 기반으로 제작되었으며 실제 제품과 함께 사용하도록 설계되었습니다. 또한 사용자가 맞춤형 NER 추출기를 구축할 수 있는 고급 통계 시스템도 갖추고 있습니다.
기술이 계속 발전함에 따라 NER 시스템은 더욱 보편화되어, 조직이 매일 접하는 데이터를 이해하는 데 도움이 될 것입니다. 지금까지 의료와 금융부터 고객 서비스와 사이버 보안에 이르기까지 여러 부문에서 그 유용성이 입증되었습니다.
가장 영향력 있는 사용 사례의 일부는 다음과 같습니다.
NER은 대규모 비정형 데이터베이스에서 유용하고 구조화된 정보를 추출하는 중요한 첫 번째 단계입니다. 검색 엔진은 NER을 사용하여 검색 결과의 관련성과 정확성을 개선합니다.
뉴스 애그리게이터는 NER을 사용하여 포함된 명명된 엔티티를 기반으로 기사와 스토리를 분류함으로써 오디언스에게 보다 체계적이고 효율적인 방식으로 뉴스를 제공할 수 있습니다. 예를 들어, 뉴스 앱용 NER은 분류 프로세스를 자동화하여 유사한 뉴스 기사를 함께 그룹화하고 특정 뉴스 이벤트에 대한 보다 포괄적인 보기를 제공합니다.
소셜 미디어 플랫폼이 확산되면서 분석에 사용할 수 있는 텍스트 데이터의 양이 압도적으로 많아졌습니다. NER은 소셜 미디어 분석에서 중요한 역할을 하며, 게시물과 댓글에서 주요 엔티티를 식별하여 다양한 주제에 대한 트렌드와 여론(특히 브랜드 및 제품에 대한 의견)을 이해합니다. 이 정보를 통해 기업은 감정 분석, 마케팅 전략 개발, 고객 서비스 대응, 제품 개발 노력을 가속화할 수 있습니다.
가상 어시스턴트와 생성형 인공 지능 챗봇은 NER을 사용하여 사용자 요청과 고객 지원 문의를 정확하게 이해할 수 있습니다. 사용자 문의에서 중요한 엔티티를 식별함으로써 이러한 AI 기반 도구는 정확한 컨텍스트별 응답을 제공할 수 있습니다. 예를 들어, "피드몬트 공원 근처에서 소울 푸드 레스토랑을 찾아 주세요"라는 문의에서 NER는 가상 어시스턴트가 "소울 푸드"를 요리로, "레스토랑"을 업소 유형으로, "피드몬트 공원"을 장소로 이해하는 데 도움을 줍니다.
사이버 보안 분야에서 NER은 기업이 네트워크 로그와 기타 보안 관련 데이터에서 잠재적인 위협과 이상 징후를 식별하는 데 도움을 줍니다. 예를 들어 네트워크 보안 로그에서 의심스러운 IP 주소, URL, 사용자 이름 및 파일 이름을 식별할 수 있습니다. 따라서 NER는 보다 철저한 보안 인시던트 조사를 용이하게 하고 전반적인 네트워크 보안을 개선할 수 있습니다.
NER은 시작된 이래로 혁신적인 기술을 통합하고 그 과정에서 유용성을 크게 확장하면서 많은 진전을 이루었습니다. 그러나 NER 기술을 평가할 때 고려해야 할 몇 가지 주목할 만한 어려움이 있습니다.
NER은 영어와 같은 언어에서 많은 발전을 이루었지만 다른 언어에서는 동일한 수준의 정확도를 제공하지 않습니다. 이는 이러한 언어로 라벨이 지정된 데이터가 부족하기 때문인 경우가 많습니다. 한 언어에서 다른 언어로 지식을 전달하는 것과 관련된 교차 언어 NER은 NET 언어 격차를 해소하는 데 도움이 될 수 있는 활발한 연구 영역입니다.
경우에 따라 엔티티가 다른 엔티티 내에 중첩될 수도 있으며, 이러한 중첩된 엔티티를 인식하는 것은 어려울 수 있습니다. 예를 들어 "The Pennsylvania State University, University Park는 1855년에 설립되었습니다"라는 문장에서 "Pennsylvania State University"와 "The Pennsylvania State University, University Park"는 모두 유효한 엔티티입니다.
또한 일반적인 NER 모델은 이름과 위치와 같은 일반적인 엔티티를 식별할 수 있지만 특정 도메인에 특정한 엔티티를 식별하는 데 어려움을 겪을 수 있습니다. 예를 들어, 의료 분야에서는 질병 이름이나 약물 이름과 같은 복잡한 용어를 식별하는 것이 어려울 수 있습니다. 도메인별 NER 모델은 특수화된 도메인별 데이터에 대해 학습할 수 있지만 해당 정보를 확보하는 것 자체가 어려울 수 있습니다.
NER 모델은 모호성(예: "Apple"은 과일 또는 기술 회사를 지칭할 수 있음), 엔티티 이름 변형(예: "USA," "U.S.A.," "United States" 및 "United States of America" 모두 같은 국가를 지칭함), 제한된 문맥 정보(텍스트나 문장에 엔티티를 정확하게 식별하고 분류할 수 있는 충분한 문맥이 포함되어 있지 않음) 등 더 광범위한 문제에 직면할 수도 있습니다.
NER에는 어려움이 있지만, 지속적인 발전을 통해 정확도와 적용 가능성을 지속적으로 개선하고 있어 기존 기술 격차의 영향을 최소화하는 데 도움이 되고 있습니다.
NER은 잘 정립된 분야이지만 아직 해야 할 일이 많이 남아 있습니다.
미래를 내다볼 때 유망한 분야 중 하나는 NER을 위한 비지도 학습 기법입니다. 지도 학습 기법은 우수한 성능을 보이지만, 많은 라벨이 지정된 데이터가 필요하기 때문에 확보하기가 어려울 수 있습니다. 비지도 학습 기법은 라벨이 지정된 데이터가 필요하지 않으며 조직이 데이터 가용성 문제를 극복하는 데 도움이 될 수 있습니다.
또 다른 흥미로운 방향은 NER을 다른 NLP 작업과 통합하는 것입니다. 예를 들어 NER과 엔티티 연결(엔티티를 지식 창고의 해당 항목에 연결하는 작업) 또는 NER과 핵심 참조 해결(텍스트의 두 개 이상의 표현이 언제 동일한 엔티티를 참조하는지 결정하는 작업)을 위한 공동 모델을 사용하면 시스템을 더 잘 이해하고 처리하는 텍스트를 만들 수 있습니다.
퓨샷(few-shot) 러닝 및 다중 모드(multimodal) NER도 NER 기술의 기능을 확장합니다. 퓨샷 러닝을 통해 모델은 몇 가지 예제만으로 작업을 수행하도록 학습되며, 이는 라벨이 지정된 데이터가 부족할 때 특히 유용할 수 있습니다. 반면에 다중 모드 NER에는 텍스트를 다른 엔티티 유형과 통합하는 것이 포함됩니다. 예를 들어, 이미지나 오디오는 엔티티를 인식하는 데 도움이 되는 추가 컨텍스트를 제공할 수 있습니다.
IBM watsonx Orchestrate를 사용하여 확장 가능한 AI 어시스턴트 및 에이전트를 쉽게 설계하고, 반복적인 작업을 자동화하고, 복잡한 프로세스를 간소화합니다.
강력하고 유연한 라이브러리, 서비스 및 애플리케이션 포트폴리오로 인공 지능의 비즈니스 가치를 가속화합니다.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.