홈
topics
음성 인식
자동 음성 인식(ASR), 컴퓨터 음성 인식 또는 Speech to Text로도 알려진 음성 인식은 프로그램이 사람의 음성을 문자 형식으로 처리할 수 있도록 하는 기능입니다.
음성 인식은 일반적으로 음성 인식과 혼동되지만 음성 인식은 음성을 음성 형식에서 텍스트 형식으로 변환하는 데 중점을 두는 반면 음성 인식은 개별 사용자의 음성을 식별하려고 합니다.
IBM은 1962년 'Shoebox'를 출시한 이래 음성 인식 분야에서 중요한 역할을 해왔습니다. 이 기계는 16개의 다른 단어를 인식할 수 있는 능력을 가지고 있어 1950년대 Bell Labs의 초기 작업을 발전시켰습니다. 그러나 IBM은 거기서 멈추지 않고 1996년에 VoiceType Simply Speaking 애플리케이션을 출시하면서 수년에 걸쳐 혁신을 계속했습니다. 이 음성 인식 소프트웨어는 42,000단어의 어휘를 가지고 있었고 영어와 스페인어를 지원했으며 100,000단어의 철자 사전을 포함했습니다.
초기 음성 기술의 어휘는 제한적이었지만, 오늘날 자동차, 기술 및 의료와 같은 다양한 산업 분야에서 활용되고 있습니다. 딥 러닝 및 빅 데이터의 발전으로 최근 몇 년 동안 계속 이 기술은 더 빠르게 도입되고 있습니다. 연구(ibm.com 외부 링크)에 따르면 이 시장은 2025년까지 249억 달러 규모에 이를 것으로 예상됩니다.
데이터 분석을 위한 오픈 소스 SQL 엔진인 Presto를 시작하는 방법에 대해서는 무료 O'Reilly eBook을 살펴보세요.
많은 음성 인식 애플리케이션과 장치를 활용할 수 있지만, 고급 솔루션을 위해서는 AI와 머신 러닝을 사용합니다. 이것들은 오디오 및 음성 신호의 문법, 구문, 구조 및 구성을 통합하여 인간의 말을 이해하고 처리합니다. 이상적으로는 상호 작용할 때마다 반응을 발전시키며 학습하는 것이 좋습니다.
또한 최고의 시스템을 통해 조직은 언어와 말의 뉘앙스에서 브랜드 인지도에 이르기까지 모든 것을 구체적인 요구 사항에 맞게 기술을 사용자 지정하고 조정할 수 있습니다. 예시는 다음과 같습니다.
한편, 음성 인식은 계속 발전하고 있습니다. IBM과 같은 기업들은 인간과 기계의 상호 작용을 개선하고자 여러 분야에 진출하고 있습니다.
인간의 언어는 워낙 변화가 많기에 개발이 어려울 수밖에 없습니다. 이는 언어학, 수학 및 통계학과 관련된 컴퓨터 과학에 있어 가장 복잡한 영역 중 하나로 간주됩니다. 음성 인식기는 음성 입력, 기능 추출, 기능 벡터, 해독기 및 단어 출력과 같은 몇 가지 구성 요소로 이루어져 있습니다. 해독기는 음향 모델, 발음 사전 및 언어 모델을 활용하여 적절한 출력을 결정합니다.
음성 인식 기술은 정확도, 즉 단어 오류율(WER) 및 속도에 따라 평가됩니다. 발음, 억양, 음의 높낮이, 음량 및 배경 소음과 같은 여러 요인이 단어 오류율에 영향을 줄 수 있습니다. 두 명의 사람이 말하는 것과 동등한 오류율을 의미하는 인간 동등성에 도달하는 것은 오랫동안 음성 인식 시스템의 목표였습니다. Lippmann의 연구(ibm.com 외부 링크)는 단어 오류율을 약 4%로 추정하지만 이 논문의 결과를 재현하기는 어려웠습니다.
다양한 알고리즘과 계산 기술을 사용하여 음성을 텍스트로 인식하고 트랜스크립션의 정확도를 향상합니다. 아래 내용은 가장 일반적으로 사용되는 몇 가지 방법에 대한 간략한 설명입니다.
오늘날 많은 산업 분야에서는 음성 기술의 다양한 애플리케이션을 활용하여 기업과 소비자의 시간을 절약하고 심지어 생명을 구할 수도 있습니다. 몇 가지 예를 들어 보겠습니다.
자동차: 음성 인식기는 음성 인식 내비게이션 시스템과 자동차 라디오의 검색 기능을 활성화하여 운전자 안전을 개선합니다.
기술: 가상 상담사는 일상 생활, 특히 모바일 장치에서 점점 더 통합되고 있습니다. 음성 검색 같은 작업을 위해 Google Assistant 또는 Apple의 Siri와 같은 스마트폰으로 음성 명령을 사용하거나 Amazon의 Alexa 또는 Microsoft의 Cortana를 통해 스피커로 음악을 재생합니다. 이러한 것들은 우리가 사용하는 일상 제품에 계속 통합되어 '사물 인터넷' 움직임에 박차를 가할 것입니다.
의료: 의사와 간호사는 받아쓰기 애플리케이션을 활용하여 환자 진단 및 치료 기록을 캡처하고 기록합니다.
영업: 영업 분야에 몇 가지 음성 인식 기술 애플리케이션이 활용되고 있습니다. 콜센터는 고객과 상담원 간의 수천 건의 전화 통화를 기록하여 일반적인 통화 패턴과 문제를 식별할 수 있습니다. 또한 AI 챗봇은 문의 센터 상담사가 대응할 때까지 기다릴 필요 없이 웹페이지를 통해 사람들과 대화하면서 일반적인 질문에 답하고 기본 요청을 해결할 수 있습니다. 두 경우 모두 음성 인식 시스템을 통해 소비자 문제 해결 시간을 단축할 수 있습니다.
안전: 기술이 일상 생활에 통합됨에 따라 보안 프로토콜의 우선순위가 높아지고 있습니다. 음성 기반 인증은 실행 가능한 보안 수준을 추가합니다.