자동 음성 인식(ASR), 컴퓨터 음성 인식 또는 음성-텍스트 변환(speech-to-text)이라고도 부르는 음성 인식은 프로그램이 사람의 음성을 텍스트 형식으로 처리할 수 있도록 해주는 기능입니다. 이 기술은 일반적으로는 목소리 인식(voice recognition)과 혼동됩니다. 음성 인식이 구어체 형식의 음성을 텍스트 형식으로 변환하는 반면, 목소리 인식은 단지 개별 사용자의 목소리를 식별합니다.
IBM은 1962년에 "Shoebox"를 릴리즈한 이후, 창립 이래로 음성 인식 분야에서 중요한 역할을 해왔습니다. 이 기계는 1950년대 이후 벨 연구소의 초기 작업을 발전시켜서 16개의 서로 다른 단어를 인식할 수 있었습니다. 하지만 IBM은 거기서 멈추지 않았습니다. 여러 해 동안 지속적인 혁신을 거듭한 끝에 1996년에는 VoiceType Simply Speaking 애플리케이션을 출시했습니다. 이 음성 인식 소프트웨어는 42,000 단어의 어휘를 보유하고 있으며, 영어와 스페인어를 지원하고, 10만 단어의 맞춤법 사전을 내장하고 있습니다. 초기의 음성 기술에는 한정된 어휘만 있었지만, 이는 오늘날 자동차, 기술 및 의료 분야와 같은 광범위한 산업 분야에서 활용되고 있습니다. 이의 채택은 딥 러닝과 빅데이터의 발전에 힘입어 최근 지속적으로 가속화되고 있습니다. 연구 보고서(IBM 외부 링크)에 따르면, 이 시장은 2025년에는 USD 249억의 가치를 지닐 것으로 예상됩니다.
IBM Watson Speech to Text
IBM Watson Text to Speech
많은 음성 인식 애플리케이션과 디바이스를 사용할 수 있지만, 보다 고급 솔루션에서는 AI와 머신 러닝을 사용합니다. 이는 문법, 구문, 구조 그리고 오디오와 음성 신호의 구성을 통합하여 사람의 음성을 이해하고 처리합니다. 이상적으로, 이는 실행하면서 학습합니다. 즉, 각각의 상호작용을 통해 응답을 발전시킵니다.
또한 최고 수준의 시스템을 통해 기업들은 언어와 음성의 뉘앙스에서부터 브랜드 인식에 이르기까지 모두를 포함하여 자신의 특정 요구사항에 맞게 기술을 사용자 정의하고 조정할 수 있습니다. 예를 들면 다음과 같습니다.
한편, 음성 인식은 계속해서 발전하고 있습니다. IBM 등의 기업들이 다양한 분야에 진출하고 있으며, 인간과 기계의 상호작용을 향상시키는 데 기여하고 있습니다.
인간 음성의 예측 불가능한 변칙 상황은 개발을 매우 어렵게 만들고 있습니다. 이는 언어학, 수학 및 통계학과 함께 가장 복잡한 컴퓨터 사이언스 분야 중 하나로 간주되고 있습니다. 음성 인식기는 음성 입력, 특성 추출, 특성 벡터, 디코더 및 워드 출력 등의 몇몇 컴포넌트로 구성되어 있습니다. 디코더는 음향 모델, 발음 사전 및 언어 모델을 활용하여 적절한 출력을 판별합니다.
음성 인식 기술은 정확도, 즉 단어 오류율(WER) 및 속도에 따라 평가됩니다. 발음, 액센트, 피치, 볼륨 및 배경 잡음 등 다수의 요인이 단어 오류율에 영향을 줄 수 있습니다. 두 사람의 발화의 경우와 대응되는 오류율을 의미하는 인간 패리티 달성은 음성 인식 시스템의 목표가 되어 왔습니다. Lippmann의 연구(IBM 외부 링크)(PDF, 352 KB)에서는 단어 오류율을 약 4% 정도로 추정하지만, 이 논문의 결과와 동일한 결과를 실제 환경에서 얻는 것은 어려웠습니다.
여기에서 음성 인식 분야에서 업계 기록을 달성함으로써 IBM이 이러한 측면에서 어떻게 장족의 발전을 거듭해 왔는지에 대해 알아보세요.
음성을 텍스트로 인식하고 전사의 정확도를 향상시키기 위해 다양한 알고리즘과 계산 기술이 사용되고 있습니다. 다음은 가장 일반적으로 사용되는 방법들 중 일부에 대한 간략한 설명입니다.
오늘날 수많은 산업 분야에서 음성 기술의 다양한 응용 기술을 활용하고 있으며, 기업과 소비자들이 시간을 절약함은 물론 심지어는 생명까지도 구할 수 있도록 지원합니다. 그 예는 다음과 같습니다.
자동차: 음성 인식기는 자동차 라디오에서 음성 활성화 내비게이션 시스템 및 검색 기능을 활성화하여 운전자 안전성을 향상시킵니다.
기술: 가상 상담원은 특히 모바일 디바이스를 통해 점점 더 우리의 일상적 삶 속에 통합되고 있습니다. 우리는 음성 명령을 사용함으로써 음성 검색 등의 작업을 위해 스마트폰(예: Google Assistant 또는 Apple의 Siri)을 통해 이에 액세스하거나, 음악 재생을 위해 스피커(예: Amazon의 Alexa 또는 Microsoft의 Cortana)를 통해 이에 액세스합니다. 이는 우리가 매일 사용하는 일상적인 제품들에 지속적으로 통합됨으로써 "사물인터넷(Internet of Things, IoT)" 혁명을 가속화할 것입니다.
의료: 의사와 간호사는 딕테이션 애플리케이션을 활용함으로써 환자 진단과 치료 기록을 캡처하고 기록합니다.
영업: 음성 인식 기술은 영업 분야에서 몇 가지 방식으로 응용되고 있습니다. 이는 콜센터가 고객과 에이전트 간의 수천 건의 전화 통화를 전사함으로써 공통적인 통화 패턴과 문제들을 식별하는 데 도움을 줄 수 있습니다. AI 챗봇은 또한 웹 페이지를 통해 고객들과 대화하고, 일반적인 질의에 응답하며, 기본적인 요청들을 처리할 수 있습니다. 따라서 고객센터 상담원과 통화를 하려고 오랜 시간을 기다릴 필요가 없습니다. 위의 두 사례 모두에서, 음성 인식 시스템은 고객 문제 해결 시간을 단축하도록 지원합니다.
보안: 기술이 우리의 일상적인 삶에 통합되면서, 보안 프로토콜은 점점 더 우선 순위가 높아지고 있습니다. 음성 기반 인증은 실행 가능한 보안 수준을 추가로 제공합니다.
AI 기반의 음성 인식과 전사를 사용하여 음성을 텍스트로 변환합니다.
텍스트를 다양한 언어와 음성의 자연스러운 오디오로 변환합니다.
AI 기반 하이브리드 클라우드 소프트웨어입니다.
고객 셀프 서비스, 상담원 지원 및 음성 분석 등 다양한 사용 사례에서 여러 언어로 음성 전사를 지원합니다.
Lingmo가 더 적은 데이터로 음성 인식과 모델 훈련을 어떻게 개선하는지 알아봅니다.
혁신을 가속화하기 위해 클라우드, AI, 자동화와 같은 기술을 활용하는 방법을 알아보고 재구상하여 진화하는 고객의 기대치를 충족하는 방법을 알아봅니다.