topics

음성 인식

음성 인식이란 무엇인가요?
IBM의 음성 인식 솔루션 살펴보기 AI 업데이트 신청
구름의 픽토그램, 파이 차트, 그래프 픽토그램의 콜라주가 있는 그림
음성 인식이란 무엇인가요?

자동 음성 인식(ASR), 컴퓨터 음성 인식 또는 Speech to Text로도 알려진 음성 인식은 프로그램이 사람의 음성을 문자 형식으로 처리할 수 있도록 하는 기능입니다.

음성 인식은 일반적으로 음성 인식과 혼동되지만 음성 인식은 음성을 음성 형식에서 텍스트 형식으로 변환하는 데 중점을 두는 반면 음성 인식은 개별 사용자의 음성을 식별하려고 합니다.

IBM은 1962년 'Shoebox'를 출시한 이래 음성 인식 분야에서 중요한 역할을 해왔습니다. 이 기계는 16개의 다른 단어를 인식할 수 있는 능력을 가지고 있어 1950년대 Bell Labs의 초기 작업을 발전시켰습니다. 그러나 IBM은 거기서 멈추지 않고 1996년에 VoiceType Simply Speaking 애플리케이션을 출시하면서 수년에 걸쳐 혁신을 계속했습니다. 이 음성 인식 소프트웨어는 42,000단어의 어휘를 가지고 있었고 영어와 스페인어를 지원했으며 100,000단어의 철자 사전을 포함했습니다.

초기 음성 기술의 어휘는 제한적이었지만, 오늘날 자동차, 기술 및 의료와 같은 다양한 산업 분야에서 활용되고 있습니다. 딥 러닝 및 빅 데이터의 발전으로 최근 몇 년 동안 계속 이 기술은 더 빠르게 도입되고 있습니다. 연구(ibm.com 외부 링크)에 따르면 이 시장은 2025년까지 249억 달러 규모에 이를 것으로 예상됩니다.

Presto 학습 및 운영

데이터 분석을 위한 오픈 소스 SQL 엔진인 Presto를 시작하는 방법에 대해서는 무료 O'Reilly eBook을 살펴보세요.

관련 내용 파운데이션 모델 가이드 등록하기
효과적인 음성 인식의 주요 기능

많은 음성 인식 애플리케이션과 장치를 활용할 수 있지만, 고급 솔루션을 위해서는 AI머신 러닝을 사용합니다. 이것들은 오디오 및 음성 신호의 문법, 구문, 구조 및 구성을 통합하여 인간의 말을 이해하고 처리합니다. 이상적으로는 상호 작용할 때마다 반응을 발전시키며 학습하는 것이 좋습니다.

또한 최고의 시스템을 통해 조직은 언어와 말의 뉘앙스에서 브랜드 인지도에 이르기까지 모든 것을 구체적인 요구 사항에 맞게 기술을 사용자 지정하고 조정할 수 있습니다. 예시는 다음과 같습니다.

  • 언어 가중치: 자주 사용되는 특정 단어(예: 제품 이름 또는 업계 전문 용어)에 이미 기본 어휘에 있는 용어 외에 가중치를 부여하여 정밀도를 향상합니다.
  • 화자 라벨링: 여러 명이 참여한 대화에서 각 화자의 기여를 인용하거나 태그를 지정하는 트랜스크립션을 출력합니다.
  • 음향 학습: 비즈니스의 음향적인 측면에 주의를 기울입니다. 음향 환경(예: 콜센터의 주변 소음) 및 화자 스타일(예: 음성의 높낮이, 음량 및 속도)에 적응하도록 시스템을 학습시킵니다.
  • 욕설 필터링: 필터를 사용하여 특정 단어나 구를 식별하고 불쾌한 음성 출력을 삭제합니다.

한편, 음성 인식은 계속 발전하고 있습니다. IBM과 같은 기업들은 인간과 기계의 상호 작용을 개선하고자 여러 분야에 진출하고 있습니다.

 

음성 인식 알고리즘

인간의 언어는 워낙 변화가 많기에 개발이 어려울 수밖에 없습니다. 이는 언어학, 수학 및 통계학과 관련된 컴퓨터 과학에 있어 가장 복잡한 영역 중 하나로 간주됩니다. 음성 인식기는 음성 입력, 기능 추출, 기능 벡터, 해독기 및 단어 출력과 같은 몇 가지 구성 요소로 이루어져 있습니다. 해독기는 음향 모델, 발음 사전 및 언어 모델을 활용하여 적절한 출력을 결정합니다.

음성 인식 기술은 정확도, 즉 단어 오류율(WER) 및 속도에 따라 평가됩니다. 발음, 억양, 음의 높낮이, 음량 및 배경 소음과 같은 여러 요인이 단어 오류율에 영향을 줄 수 있습니다. 두 명의 사람이 말하는 것과 동등한 오류율을 의미하는 인간 동등성에 도달하는 것은 오랫동안 음성 인식 시스템의 목표였습니다. Lippmann의 연구(ibm.com 외부 링크)는 단어 오류율을 약 4%로 추정하지만 이 논문의 결과를 재현하기는 어려웠습니다.

다양한 알고리즘과 계산 기술을 사용하여 음성을 텍스트로 인식하고 트랜스크립션의 정확도를 향상합니다. 아래 내용은 가장 일반적으로 사용되는 몇 가지 방법에 대한 간략한 설명입니다.

  • 자연어 처리(NLP): NLP는 반드시 음성 인식에 사용되는 특정 알고리즘은 아니지만, 음성과 텍스트를 통한 언어를 통해 인간과 기계 간의 상호 작용에 중점을 둔 인공 지능 영역입니다. 많은 모바일 기기가 시스템에 Siri와 같은 음성 인식 기능을 통합하여 음성 검색을 수행하거나 문자 메시지에 대한 접근성을 향상하고 있습니다. 
  • 은닉 마르코프 모델(HMM): 은닉 마르코프 모델은, 주어진 상태의 확률이 이전의 상태가 아닌 현재 상태에 달려 있다고 규정하는 마르코프 체인 모델을 기반으로 합니다. 마르코프 체인 모델은 텍스트 입력 등 관측성 이벤트에 유용한 반면, 은닉 마르코프 모델을 사용하면 품사 태그와 같이 숨겨진 이벤트를 확률 모델에 통합할 수 있습니다. 음성 인식 안에서 이러한 태그를 시퀀스 모델로 활용해 각 단위(단어, 음절, 문장 등)에 레이블을 순서대로 할당합니다. 이 레이블들은 제공된 입력 값에 따라 매핑을 생성하여 가장 적절한 레이블 시퀀스를 결정할 수 있도록 합니다.
  • N-그램: 문장이나 구에 확률을 할당하는 가장 간단한 유형의 언어 모델(LM)입니다. N-그램은 N-단어 시퀀스입니다. 예를 들어, 'order the pizza'는 트라이그램 또는 3g이고 'please order the pizza'는 4g입니다. 인식과 정확성을 향상하는 데 문법과 특정 단어 시퀀스의 확률이 사용됩니다.
  • 신경망: 주로 딥 러닝 알고리즘에 활용되는 신경망은 노드 레이어를 통해 인간 두뇌의 상호 연결성을 모방하여 학습 데이터를 처리합니다. 각 노드는 입력, 가중치, 편향(임곗값) 및 출력으로 구성됩니다. 해당 출력값이 지정된 임곗값을 초과하면 노드를 '실행'하거나 활성화하여 데이터를 네트워크의 다음 레이어로 전달합니다. 신경망은 지도 학습을 통해 이 매핑 기능을 학습하고, 경사하강법(gradient descent) 과정을 통해 손실 함수를 기반으로 조정합니다.  신경망은 더 정확하고 더 많은 데이터를 수용할 수 있는 경향이 있지만, 기존 언어 모델에 비해 학습 속도가 느린 경향이 있기 때문에 성능 효율성 비용이 발생합니다.
  • 화자 분리(SD): 화자 분리 알고리즘은 화자 신원에 따라 음성을 식별하고 분류합니다. 이는 프로그램이 대화에서 개인을 더 잘 구분할 수 있도록 하며 고객과 영업 상담원을 구분하는 콜센터에서 자주 적용됩니다.
음성 인식 사용 사례

오늘날 많은 산업 분야에서는 음성 기술의 다양한 애플리케이션을 활용하여 기업과 소비자의 시간을 절약하고 심지어 생명을 구할 수도 있습니다. 몇 가지 예를 들어 보겠습니다.

자동차: 음성 인식기는 음성 인식 내비게이션 시스템과 자동차 라디오의 검색 기능을 활성화하여 운전자 안전을 개선합니다.

기술: 가상 상담사는 일상 생활, 특히 모바일 장치에서 점점 더 통합되고 있습니다. 음성 검색 같은 작업을 위해 Google Assistant 또는 Apple의 Siri와 같은 스마트폰으로 음성 명령을 사용하거나 Amazon의 Alexa 또는 Microsoft의 Cortana를 통해 스피커로 음악을 재생합니다. 이러한 것들은 우리가 사용하는 일상 제품에 계속 통합되어 '사물 인터넷' 움직임에 박차를 가할 것입니다.

의료: 의사와 간호사는 받아쓰기 애플리케이션을 활용하여 환자 진단 및 치료 기록을 캡처하고 기록합니다.

영업: 영업 분야에 몇 가지 음성 인식 기술 애플리케이션이 활용되고 있습니다. 콜센터는 고객과 상담원 간의 수천 건의 전화 통화를 기록하여 일반적인 통화 패턴과 문제를 식별할 수 있습니다. 또한 AI 챗봇은 문의 센터 상담사가 대응할 때까지 기다릴 필요 없이 웹페이지를 통해 사람들과 대화하면서 일반적인 질문에 답하고 기본 요청을 해결할 수 있습니다. 두 경우 모두 음성 인식 시스템을 통해 소비자 문제 해결 시간을 단축할 수 있습니다.

안전: 기술이 일상 생활에 통합됨에 따라 보안 프로토콜의 우선순위가 높아지고 있습니다. 음성 기반 인증은 실행 가능한 보안 수준을 추가합니다.

관련 솔루션
IBM Watson Text to Speech

AI 기반 음성 인식 및 트랜스크립션을 사용하여 음성을 텍스트로 변환

IBM Watson Speech to Text 살펴보기
IBM watsonx Text to Speech

텍스트를 다양한 언어와 목소리의 자연스러운 음성으로 변환합니다.

IBM Watson Text to Speech 살펴보기
IBM Cloud Pak 솔루션

AI 기반 하이브리드 클라우드 소프트웨어

Cloud Pak 솔루션 살펴보기
리소스 IBM Watson Speech to Text 기술이 AI 기반 음성 인식 및 트랜스크립션을 어떻게 활용하는지 알아보기

고객 셀프 서비스, 상담사 지원 및 음성 분석을 포함하되 이에 국한되지 않는 다양한 사용 사례에서 여러 언어로 음성 트랜스크립션을 지원합니다.

IBM Cloud Paks, 디지털 혁신을 향한 길을 개척

어떻게 하면 시대에 뒤쳐지지 않을지 알아보고 클라우드, AI 및 자동화와 같은 기술을 사용해 어떻게 하면 혁신을 가속화하며 진화하는 고객의 기대를 충족할 수 있을지 새롭게 알아보세요.

다음 단계 안내

IBM watsonx Assistant는 비즈니스 언어를 이해하고 기존 고객 관리 시스템에 연결하며 엔터프라이즈 보안 및 확장성을 갖추고 어디에나 배치할 수 있는 AI 챗봇을 통해 조직이 더 나은 고객 경험을 제공할 수 있도록 지원합니다. watsonx Assistant를 통해 반복적인 작업을 자동화하고 머신 러닝을 사용하여 고객 지원 문제를 빠르고 효율적으로 해결할 수 있습니다.

watsonx Assistant 살펴보기 라이브 데모 예약하기