음성 인식이란 무엇인가요?

음성 인식이란 무엇인가요?

자동 음성 인식(ASR), 컴퓨터 음성 인식 또는 Speech to Text로도 알려진 음성 인식은 프로그램이 사람의 음성을 문자 형식으로 처리할 수 있도록 하는 기능입니다.

음성 인식은 일반적으로 음성 인식과 혼동되지만 음성 인식은 음성을 음성 형식에서 텍스트 형식으로 변환하는 데 중점을 두는 반면 음성 인식은 개별 사용자의 음성을 식별하려고 합니다.

IBM은 1962년 'Shoebox'를 출시한 이래 음성 인식 분야에서 중요한 역할을 해왔습니다. 이 기계는 16개의 다른 단어를 인식할 수 있는 능력을 가지고 있어 1950년대 Bell Labs의 초기 작업을 발전시켰습니다. 그러나 IBM은 거기서 멈추지 않고 1996년에 VoiceType Simply Speaking 애플리케이션을 출시하면서 수년에 걸쳐 혁신을 계속했습니다. 이 음성 인식 소프트웨어는 42,000단어의 어휘를 가지고 있었고 영어와 스페인어를 지원했으며 100,000단어의 철자 사전을 포함했습니다.

초기 음성 기술의 어휘는 제한적이었지만, 오늘날 자동차, 기술 및 의료와 같은 다양한 산업 분야에서 활용되고 있습니다. 딥 러닝 및 빅 데이터의 발전으로 최근 몇 년 동안 계속 이 기술은 더 빠르게 도입되고 있습니다. 연구에 따르면 이 시장은 2025년까지 249억 달러 규모에 이를 것으로 예상됩니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

효과적인 음성 인식의 주요 기능

많은 음성 인식 애플리케이션과 장치를 활용할 수 있지만, 고급 솔루션을 위해서는 인공 지능(AI)과 머신 러닝을 사용합니다. 이것들은 오디오 및 음성 신호의 문법, 구문, 구조 및 구성을 통합하여 인간의 말을 이해하고 처리합니다. 이상적으로는 상호 작용할 때마다 반응을 발전시키며 학습하는 것이 좋습니다.

또한 최고의 시스템을 통해 조직은 언어와 말의 뉘앙스에서 브랜드 인지도에 이르기까지 모든 것을 구체적인 요구 사항에 맞게 기술을 사용자 지정하고 조정할 수 있습니다. 예를 들면 다음과 같습니다.

  • 언어 가중치: 자주 사용되는 특정 단어(예: 제품 이름 또는 업계 전문 용어)에 이미 기본 어휘에 있는 용어 외에 가중치를 부여하여 정밀도를 향상합니다.

  • 화자 라벨링: 여러 명이 참여한 대화에서 각 화자의 기여를 인용하거나 태그를 지정하는 트랜스크립션을 출력합니다.

  • 음향 학습: 비즈니스의 음향적인 측면에 주의를 기울입니다. 음향 환경(예: 콜센터의 주변 소음) 및 화자 스타일(예: 음성의 높낮이, 음량 및 속도)에 적응하도록 시스템을 학습시킵니다.

  • 욕설 필터링: 필터를 사용하여 특정 단어나 구를 식별하고 불쾌한 음성 출력을 삭제합니다.

한편, 음성 인식은 계속 발전하고 있습니다. IBM과 같은 기업들은 인간과 기계의 상호 작용을 개선하고자 여러 분야에 진출하고 있습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

음성 인식 알고리즘

인간의 언어는 워낙 변화가 많기에 개발이 어려울 수밖에 없습니다. 이는 언어학, 수학 및 통계학과 관련된 컴퓨터 과학에 있어 가장 복잡한 영역 중 하나로 간주됩니다. 음성 인식기는 음성 입력, 기능 추출, 기능 벡터, 해독기 및 단어 출력과 같은 몇 가지 구성 요소로 이루어져 있습니다. 해독기는 음향 모델, 발음 사전 및 언어 모델을 활용하여 적절한 출력을 결정합니다.

음성 인식 기술은 정확도, 즉 단어 오류율(WER) 및 속도에 따라 평가됩니다. 발음, 억양, 음의 높낮이, 음량 및 배경 소음과 같은 여러 요인이 단어 오류율에 영향을 줄 수 있습니다. 두 명의 사람이 말하는 것과 동등한 오류율을 의미하는 인간 동등성에 도달하는 것은 오랫동안 음성 인식 시스템의 목표였습니다. Lippmann의 연구는 단어 오류율을 약 4%로 추정하지만 이 논문의 결과를 재현하기는 어려웠습니다.

다양한 알고리즘과 계산 기술을 사용하여 음성을 텍스트로 인식하고 트랜스크립션의 정확도를 향상합니다. 아래 내용은 가장 일반적으로 사용되는 몇 가지 방법에 대한 간략한 설명입니다.

  • 자연어 처리(NLP): NLP는는 반드시 음성 인식에 사용되는 특정 알고리즘은 아니지만, 음성과 텍스트를 통한 언어를 통해 인간과 기계 간의 상호 작용에 중점을 둔 인공 지능 영역입니다. 많은 모바일 기기가 시스템에 Siri와 같은 음성 인식 기능을 통합하여 음성 검색을 수행하거나 문자 메시지에 대한 접근성을 향상하고 있습니다. 

  • 은닉 마르코프 모델(HMM): 은은닉 마르코프 모델은, 주어진 상태의 확률이 이전의 상태가 아닌 현재 상태에 달려 있다고 규정하는 마르코프 체인 모델을 기반으로 합니다. 마르코프 체인 모델은 텍스트 입력 등 관측성 이벤트에 유용한 반면, 은닉 마르코프 모델을 사용하면 품사 태그와 같이 숨겨진 이벤트를 확률 모델에 통합할 수 있습니다. 음성 인식 안에서 이러한 태그를 시퀀스 모델로 활용해 각 단위( 단어, 음절, 문장 등)에 레이블을 순서대로 할당합니다. 이 레이블들은 제공된 입력 값에 따라 매핑을 생성하여 가장 적절한 레이블 시퀀스를 결정할 수 있도록 합니다.

  • N-그램: 문장이나 구에 확률을 할당하는 가장 간단한 유형의 언어 모델(LM)입니다. N-그램은 N-단어 시퀀스입니다. 예를 들어, 'order the pizza'는 트라이그램 또는 3g이고 'please order the pizza'는 4g입니다. 인식과 정확성을 향상하는 데 문법과 특정 단어 시퀀스의 확률이 사용됩니다.

  • 신경망: 주로 딥 러닝 알고리즘에 활용되는 신경망은 노드 레이어를 통해 인간 두뇌의 상호 연결성을 모방하여 학습 데이터를 처리합니다. 각 노드는 입력, 가중치, 편향(임곗값) 및 출력으로 구성됩니다. 해당 출력값이 지정된 임곗값을 초과하면 노드를 '실행'하거나 활성화하여 데이터를 네트워크의 다음 레이어로 전달합니다. 신경망은 지도 학습을 통해 이 매핑 기능을 학습하고, 경사하강법(gradient descent) 과정을 통해 손실 함수를 기반으로 조정합니다. 신경망은 더 정확하고 더 많은 데이터를 수용할 수 있는 경향이 있지만, 기존 언어 모델에 비해 학습 속도가 느린 경향이 있기 때문에 성능 효율성 비용이 발생합니다.

  • 화자 분리(SD): 화자 분리 알고리즘은 화자 신원에 따라 음성을 식별하고 분류합니다. 이는 프로그램이 대화에서 개인을 더 잘 구분할 수 있도록 하며 고객과 영업 상담원을 구분하는 콜센터에서 자주 적용됩니다.

음성 인식 사용 사례

오늘날 많은 산업 분야에서는 음성 기술의 다양한 애플리케이션을 활용하여 기업과 소비자의 시간을 절약하고 심지어 생명을 구할 수도 있습니다. 몇 가지 예를 들어 보겠습니다.

자동차: 음성 인식기는 음성 인식 내비게이션 시스템과 자동차 라디오의 검색 기능을 활성화하여 운전자 안전을 개선합니다.

기술: 가상 에이전트는 일상 생활, 특히 모바일 장치에서 점점 더 통합되고 있습니다. 음성 검색 같은 작업을 위해 Google Assistant 또는 Apple의 Siri와 같은 스마트폰으로 음성 명령을 사용하거나 Amazon의 Alexa 또는 Microsoft의 Cortana를 통해 스피커로 음악을 재생합니다. 이러한 것들은 우리가 사용하는 일상 제품에 계속 통합되어 '사물 인터넷' 움직임에 박차를 가할 것입니다.

의료: 의사와 간호사는 받아쓰기 애플리케이션을 활용하여 환자 진단 및 치료 기록을 캡처하고 기록합니다.

영업: 영업 분야에 몇 가지 음성 인식 기술 애플리케이션이 활용되고 있습니다. 콜센터는 고객과 상담원 간의 수천 건의 전화 통화를 기록하여 일반적인 통화 패턴과 문제를 식별할 수 있습니다. 또한 AI 챗봇은은 문의 센터 상담사가 대응할 때까지 기다릴 필요 없이 웹페이지를 통해 사람들과 대화하면서 일반적인 질문에 답하고 기본 요청을 해결할 수 있습니다. 두 경우 모두 음성 인식 시스템을 통해 소비자 문제 해결 시간을 단축할 수 있습니다.

안전: 기술이 일상 생활에 통합됨에 따라 보안 프로토콜의 우선순위가 높아지고 있습니다. 음성 기반 인증은 실행 가능한 보안 수준을 추가합니다.

관련 솔루션
IBM watsonx Orchestrate

IBM watsonx Orchestrate를 사용하여 확장 가능한 AI 어시스턴트 및 에이전트를 쉽게 설계하고, 반복적인 작업을 자동화하고, 복잡한 프로세스를 간소화합니다.

watsonx Orchestrate 알아보기
자연어 처리 툴 및 API

강력하고 유연한 라이브러리, 서비스 및 애플리케이션 포트폴리오로 인공 지능의 비즈니스 가치를 가속화합니다.

NLP 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM watsonx Orchestrate를 통해 확장 가능한 AI 어시스턴트 및 에이전트를 쉽게 설계하고 반복적인 작업을 자동화하며 복잡한 프로세스를 간소화합니다.

watsonx Orchestrate 알아보기 NLP 솔루션 살펴보기