텍스트 분류란 무엇인가요?

작성자

Cole Stryker

Staff Editor, AI Models

IBM Think

텍스트 분류란 무엇인가요?

텍스트 분류는 텍스트 데이터를 자동으로 그룹으로 분류하기 위해 사전 정의된 레이블을 텍스트 데이터에 할당하는 머신 러닝 작업입니다. 기업과 플랫폼이 점점 더 많은 양의 비정형 텍스트를 처리함에 따라 텍스트 분류는 텍스트 데이터를 대규모로 구성, 해석 및 조치할 수 있는 강력한 방법을 제공합니다.

요즘 시대의 기업은 웹사이트, 앱, 기타 네트워크에서 후기, 소셜 미디어 게시물, 법률 문서, 이메일 등의 형태로 방대한 텍스트 데이터를 생성합니다. 이 데이터에는 조직이 더 나은 결정을 내리는 데 도움이 될 수 있는 인사이트가 숨어 있습니다. 텍스트 분류는 프로세스의 첫 번째 단계입니다.

'긴급'으로 표시된 지원 티켓은 우선순위가 지정된 워크플로로 라우팅될 수 있습니다. '스팸'으로 표시된 이메일은 자동으로 보관될 수 있습니다. '긍정적'이라고 표시된 후기 고객은 신제품에 대한 고객 감정 보고서를 알릴 수 있습니다. 분류된 데이터를 집계하고 시각화하여 숨겨져 있는 추세와 패턴을 발견할 수 있습니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

텍스트 분류 작동 방식

텍스트 분류는 자연어 처리(NLP)의 기본 작업으로, 다양한 애플리케이션에서 사용됩니다. 텍스트 분류기는 주제, 감정 또는 의도별로 텍스트를 분류하는 것과 같은 다양한 분류 문제를 해결하는 머신 러닝 모델입니다. 작동 방식은 다음과 같습니다.

지도 텍스트 분류

지도 모델은 일반적으로 텍스트 분류를 수행하는 데 사용됩니다. 첫 번째 단계는 대규모 텍스트 샘플 데이터 세트를 수집하는 것입니다. 이메일, 소셜 게시물, 후기 또는 문서가 될 수 있습니다.

인간 주석 작성자는 각 텍스트에 레이블을 적용합니다. 예를 들어 '스팸' 또는 '스팸 아님' 또는 '긍정적' 감정과 '부정적' 감정을 비교할 수 있습니다. 이렇게 레이블이 지정된 훈련 데이터 세트는 머신 러닝 모델을 훈련하는 기초를 형성합니다. 보통 데이터가 많을수록 아웃풋이 정확해집니다.

입력 텍스트를 전처리하면 텍스트가 표준화되고 기계가 읽을 수 있는 형식으로 변환됩니다. 분류기는 숫자 표현으로 번역된 텍스트에서만 작동하며, 단어 임베딩이나 언어의 의미론적 의미를 포착하는 고급 인코더 아키텍처를 사용하는 경우가 많습니다.

하이퍼매개변수는 신경망 계층 수, 계층당 뉴런 수 또는 활성화 함수 사용과 같은 변수를 구성합니다. 이러한 하이퍼매개변수는 훈련 전에 미리 선택됩니다.

그런 다음 데이터는 데이터의 패턴을 관련 레이블과 연결하는 방법을 학습하는 분류 알고리즘에 공급됩니다.

텍스트 분류 알고리즘에는 다음이 포함됩니다.

훈련된 모델을 별도의 검증 또는 테스트 데이터세트로 테스트합니다. 이는 정확도, 정밀도, 재현율, F1 점수 같은 측정 항목을 사용하여 모델 성능을 평가하기 위함입니다. 그런 다음 모델을 확립된 벤치마크와 비교해서 평가합니다.

성능이 우수한 텍스트 분류 모델은 수신되는 텍스트를 실시간으로 분류하는 프로덕션 시스템에 통합될 수 있습니다.

고급 모델은 시간이 지남에 따라 새로운 데이터를 통합하고 재학습하여 개선할 수 있습니다. BERT와 같은 사전 학습된 언어 모델은 이미 언어에 대한 깊은 이해를 학습했으며 상대적으로 적은 데이터로 특정 분류 작업을 미세 조정할 수 있습니다. 미세 조정을 통해 특히 복잡하거나 미묘한 카테고리에 대해 학습 시간이 단축되고 성과가 향상됩니다.

비지도 텍스트 분류

훨씬 보편적인 것은 지도 학습이지만, 비지도 학습을 사용하면 레이블이 지정된 데이터 없이도 모델을 훈련할 수 있습니다. 모델은 각 텍스트에 대한 올바른 범주를 지도 받지 않고, 자체적으로 데이터에서 구조나 패턴을 찾으려고 시도합니다. 이는 훈련 예제마다 미리 정의된 카테고리의 레이블이 지정되어 있는 지도 텍스트 분류와 상반된 방식입니다. 지도 방식이 훨씬 일반적입니다.

예를 들어 클러스터링이라는 기술을 사용하면, 모델이 공유 기능을 기반으로 유사한 텍스트 조각을 클러스터로 그룹화한 다음 이를 카테고리로 해석할 수 있습니다.

AI 아카데미

고객 서비스에 AI 활용

생성형 AI를 활용하여 더 원활한 경험으로 고객을 만족시키고 셀프 서비스, 인간 상담원, 컨택 센터 운영이라는 세 가지 핵심 영역에서 조직의 생산성을 높이는 방법을 알아보세요.

텍스트 분류 사용 사례

분류와 관련된 몇 가지 일반적인 NLP 작업은 다음과 같습니다.

  • 스팸 탐지
  • 감정 분석
  • 주제 분류
  • 의도 탐지
  • 악용 및 남용 감지

스팸 탐지

스팸 탐지 시스템은 들어오는 메시지를 분석하여 '스팸' 또는 '스팸 아님'으로 분류합니다. 규칙, 통계 패턴, 머신 러닝 기술을 혼합하여 피싱 이메일, 알 수 없는 발신자의 대량 마케팅 메시지, 의심스러운 링크, 맬웨어 등을 탐지합니다.

감정 분석

감정 분석은 감정을 판단하기 위해 대량의 텍스트를 분석하는 프로세스입니다. 기업은 감정 분석의 도움을 받아, 사람들이 디지털 접점에서 느낀 감정이 긍정적인지 부정적인지 판단할 수 있습니다.

머신 러닝 알고리즘은 텍스트에 나타나는 단어들과 그 단어가 나타나는 순서를 사용하여 감정을 측정할 수 있습니다. 개발자는 감정 분석 알고리즘을 사용하여 소프트웨어에게 인간과 유사하게 텍스트의 감정을 식별하는 방법을 교육합니다.

주제 분류

주제 분류의 목표는 미리 정의된 주제 카테고리를 텍스트에 할당하는 것입니다. 콘텐츠 관리, 집계, 학술 연구 및 고객 피드백 분석에서 구조화되지 않은 대량의 텍스트를 구성하는 데 주로 사용됩니다.

의도 탐지

주제 분류는 메시지의 내용을 알려주고, 의도 감지는 사용자가 무엇을 하려고 하는지 알려줍니다. 의도 감지는 고객 서비스 또는 전자 상거래에서 대화 및 라우팅 작업을 자동화하는 데 유용합니다. 이것이 없으면 시스템이 의미 있는 도움을 제공하기가 어려울 것입니다.

유해성 및 악용 탐지

독성 및 남용 감지는 온라인에서 해롭거나 공격적이고 모욕적인 콘텐츠를 식별하고 플래그를 지정하는 데 중점을 두는 텍스트 분류 작업입니다. 혐오, 위협, 괴롭힘, 외설 또는 기타 부적절한 언어가 여기에 해당될 수 있습니다. 대형 소셜 미디어 플랫폼은 분류 알고리즘을 사용하여, 담당자가 거대한 글로벌 사용자 기반을 관리할 수 있도록 지원합니다.

프레임워크, 도구 및 API

텍스트 분류기를 구축하는 데 사용할 수 있는 오픈 소스 도구가 많이 있습니다. TensorFlow 및 PyTorch와 같은 프레임워크는 모델 생성 및 학습을 위한 구성 요소를 제공합니다. 예를 들어 TensorFlow 기반 분류기는 validation_data, 옵티마이저 및 손실과 같은 모듈과 함께 Keras API를 사용하여 레이블이 지정된 데이터에 대해 모델을 학습할 수 있습니다. 유연성으로 잘 알려진 Python 기반 머신 러닝 라이브러리인 PyTorch는 DataLoader 및 nn.Module과 같은 유틸리티와 함께 널리 사용됩니다.

종래의 분류기는 고정 레이블을 사용하지만 대규모 언어 모델(LLM)의 등장으로 분류 과정에 생성적 접근 방식이 도입되었습니다. 모델에 자연어로 레이블과 설명을 모두 생성하라는 프롬프트를 입력할 수 있습니다. 예를 들어 LLM에 문장 형식의 프롬프트를 입력해서 감정을 분류하거나, 근거를 생성하거나, 범주를 제안하도록 요청할 수 있습니다. 이 모든 작업이 추가 훈련 없이 가능합니다.

GPU 가속을 사용하면 특히 대규모 데이터 세트나 복잡한 딥 러닝 아키텍처의 경우 학습 시간이 크게 단축됩니다. 연구원과 개발자는 종종 GitHub에서 학습 파이프라인과 모델을 공유하기도 합니다.

관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기