Speech to text는 음성을 텍스트로 변환하는 프로세스입니다. 음성 텍스트 변환이라고도 하는 이 기능은 대부분 소프트웨어 기반 서비스(SaaS)로 제공됩니다.
일반적으로 자동 음성 인식이라고도 하는 인공 지능 기반 음성 인식 기술과 트랜스크립션이 결합되어 있습니다. 컴퓨터 프로그램은 음파 진동의 형태로 오디오를 포착하고 언어 알고리즘을 사용하여 오디오 입력을 디지털 문자, 단어 및 구문으로 변환합니다.
머신 러닝, 딥 러닝, OpenAI의 생성형 사전 학습 트랜스포머(GPT)와 같은 대규모 언어 모델은 대량의 오디오 및 텍스트 샘플에서 음성 언어의 패턴을 수집할 수 있어 Speech to Text 소프트웨어를 더욱 발전시키고 효율적으로 만들었습니다.
생성형 AI를 Speech to Text 소프트웨어와 통합하여 전화 통화로 고객을 돕거나 음성 지원 앱과 상호 작용할 수 있는 어시스턴트를 만들 수 있습니다. 생성형 AI는 텍스트를 다시 음성으로 변환할 수도 있는데, 이를 Text to Speech라고 하며 현실적이고 자연스러운 음성으로 변환합니다.
Speech to Text 소프트웨어에는 여러 구성 요소가 포함되어 있습니다. 여기에는 다음이 포함됩니다.
음성 입력: 마이크가 음성 단어를 캡처합니다.
특징 추출: 컴퓨터가 음성의 독특한 음높이와 패턴을 식별합니다.
디코더: 알고리즘이 언어 모델을 통해 음성 기능을 문자 및 단어와 일치시킵니다.
단어 출력: 최종 텍스트의 서식이 올바른 구두점과 대문자로 지정되어 사람이 읽을 수 있도록 합니다.
일반적으로 Speech to Text 프로세스는 다음 단계로 구성됩니다.
오디오 전처리: 오디오 녹음을 캡처한 후 인식의 품질과 정확도를 높이기 위해 사전 처리합니다. 여기에는 배경 소음 및 관련 없는 주파수 제거, 볼륨 레벨 안정화, 더 쉽게 처리할 수 있도록 클립 분할, 오디오 파일을 표준 형식으로 변환하는 작업이 포함됩니다.
소리 분석 및 특징 추출: 음성 신호는 시간에 따른 주파수를 시각적으로 표현한 스펙트로그램(ibm.com 외부 링크)으로표현되는 경우가 많습니다.1 오디오 녹음의 관련 부분은 한 단어를 다른 단어와 구별하는 가장 작은 음성 단위인 일련의 음소로 분류됩니다. 음소의 주요 부류는 모음과 자음입니다(ibm.com 외부 링크).2 언어 모델과 디코더는 음소를 단어와 일치시킨 다음 문장에 일치시킬 수 있습니다. 딥 러닝 기반 음향 모델은 컨텍스트를 기반으로 다음에 발생할 가능성이 있는 문자와 단어를 예측할 수 있습니다.
음성 인식을 수행하는 방법에는 동기식, 비동기식, 스트리밍의 세 가지가 있습니다.
동기 인식은 음성을 텍스트로 즉시 변환하는 것입니다. 1분 미만의 오디오 파일만 처리할 수 있습니다. 이는 텔레비전 방송의 라이브 캡션에 사용됩니다.
스트리밍 인식은 스트리밍된 오디오가 실시간으로 처리되는 경우이며, 사용자가 여전히 말하고 있을 때 조각난 텍스트가 나타날 수 있습니다.
비동기 인식은 미리 녹음된 대용량 오디오 파일이 전사를 위해 제출되는 경우입니다. 이는 처리를 위해 대기열에 있다가 나중에 전달될 수 있습니다.
Google3(ibm.com 외부 링크), Microsoft4(ibm.com 외부 링크), Amazon5(ibm.com 외부 링크) 및 IBM과 같은 기업들은 클라우드를 통해 Speech to Text 소프트웨어를 API로 제공하므로 다른 애플리케이션, 툴 및 디바이스와 함께 사용할 수 있습니다.
Apple iPhone에는 음성을 텍스트로 변환하는 기술을 iOS에 통합하는 받아쓰기 기능(ibm.com 외부 링크)이 있습니다.6 Android 사용자는 음성을 텍스트로 변환하는 기능을 위해 Gboard(ibm.com 외부 링크)와 같은 앱을 다운로드할 수 있습니다. 일부 Pixel 기기에서는 사용자가 어시스턴트를 통해 음성으로 입력할 수 있습니다.7 오픈 소스 및 독점 Speech to Text 소프트웨어에는 다양한 옵션이 있습니다.
음성 인식 소프트웨어는 초기에는 제한된 어휘 모음에 의존했습니다. 최근 데이터 과학, 딥 러닝, 인공 지능의 발전으로 자동차부터 의료 서비스까지 다양한 산업에서 이를 채택하고 있습니다.
1950년대에 Bell Laboratories는 음성 번호를 인식할 수 있는 AUDREY라는 최초의 음성 인식 시스템(ibm.com 외부 링크)을 개발했습니다.8 그런 다음 IBM은 1962년에 숫자와 16개의 다른 단어를 인식할 수 있는 Shoebox를 고안했습니다.
이 수십 년 동안 컴퓨터 과학자들은 음소 인식 모델과 히든 마르코프 모델과 같은 통계 모델을 고안해냈고(ibm.com 외부 링크), 이는 여전히 음성 인식에 널리 사용되는 알고리즘입니다.9 1970년대 무렵, Carnegie Mellon의 HARPY라는 프로그램을 통해 컴퓨터가 1,000개의 단어를 인식할 수 있게 되었습니다.
1980년대에 IBM의 트랜스크립션 시스템인 Tangora는 통계적 방법을 사용하여 최대 20,000개의 단어를 인식했습니다. 이 기술은 직장인을 위한 최초의 음성 인식 받아쓰기에 사용되었으며 최신 Speech to Text 소프트웨어의 토대를 마련했습니다. 이러한 유형의 소프트웨어는 2000년대 상용화될 때까지 계속 개발되고 개선되었습니다.
머신 러닝과 딥 러닝 알고리즘이 등장하면서 통계 모델을 대체하고 인식 정확도를 향상시켰으며 애플리케이션을 확장할 수 있게 되었습니다. 딥 러닝은 뉘앙스와 비공식적인 표현을 더 잘 포착할 수 있습니다. 대규모 언어 모델(LLM)을 사용하여 컨텍스트를 추가할 수 있으며, 이는 단어 선택이 더 모호하거나 발음에 악센트 변형이 있는 경우에 도움이 될 수 있습니다. 가상 어시스턴트와 스마트 스피커가 등장하면서 Speech to Text를 대규모 언어 모델, 자연어 처리(NLP) 및 기타 클라우드 기반 서비스와 통합할 수 있게 되었습니다.
트랜스포머와 같은 엔드투엔드 딥 러닝 모델은 대규모 언어 모델의 기본입니다. 이는 오디오 신호를 트랜스크립션과 일치시키는 방법을 배우기 위해 라벨이 지정되지 않은 대규모 데이터 세트에 대해 훈련됩니다.
이 훈련 과정에서 모델은 단어가 어떻게 들리는지, 어떤 단어가 시퀀스에 함께 나타날 가능성이 높은지 암묵적으로 학습합니다. 또한 이 모델은 문법 및 언어 구조 규칙을 추론하여 자체적으로 적용할 수 있습니다. 딥 러닝은 기존 Speech to Text 기술의 지루한 몇 가지 단계를 통합합니다.
Speech to Text 소프트웨어에는 다양한 사용 사례가 있습니다.
Speech to Text 소프트웨어는 고객 상호 작용을 자동으로 기록하고, 필요에 따라 통화를 라우팅하고, 고객 대화에서 인사이트를 도출하고, 감정 분석을 수행할 수 있습니다.
예: 고객 서비스 콜센터의 경우 AI 음성 어시스턴트는 Speech to Text를 사용하여 쉽고 반복적인 고객 질문은 처리하고 복잡한 요청은 인간 상담원에게 연결할 수 있습니다.
온라인 회의나 웹 세미나의 회의록을 텍스트로 변환하고 동영상에 자막, 캡션 또는 더빙을 만들 수 있습니다. 또한 번역 소프트웨어와 함께 사용하여 트랜스크립션 문서를 여러 언어로 제공할 수도 있습니다. 특수 목적 애플리케이션의 경우 의료, 법률 및 교육 애플리케이션을 위한 트랜스크립션이 가능합니다.
예: Amazon(ibm.com 외부 링크)은 음성을 텍스트로 변환하여 의사와 환자의 대화를 기록하여 임상 기록을 작성하고 원격 의료 상담에 자막을 제공하는 의료 트랜스크립션 서비스를 제공합니다.10
음성 인식은 자연어 처리를 통해 전사된 텍스트에서 의미를 도출하고 실행 가능 명령을 추출하여 수행할 수 있습니다. 이를 통해 사용자는 챗봇 또는 Alexa, Cortana, Google Assistant 및 Siri와 같은 디지털 어시스턴트를 통해 전화 걸기, 웹 검색, 스마트 홈의 조명, 온도 조절기 및 기타 연결된 장치 제어와 같은 음성 명령을 실행할 수 있습니다.
예: Amazon의 Alexa(ibm.com 외부 링크)는 이제 음성을 텍스트로 변환하고 텍스트를 음성으로 변환하여 조명을 켜고, 특정 방의 온도를 조정하거나, 최근 구매한 식료품을 기반으로 레시피를 제안합니다.11
장애가 있는 사용자는 이러한 앱을 사용하여 물리적으로 입력하지 않고도 컴퓨터 및 스마트폰과 상호 작용할 수 있습니다. 이 기능은 문자 메시지, 메모, 이메일 등을 받아쓸 수 있습니다.
예: 난독증이 있거나 최근에 팔을 다친 학생도 Microsoft 컴퓨터에서 음성으로 메모를 입력할 수 있습니다(ibm.com 외부 링크).12 이 기능은 Azure Speech Services를 통해 제공됩니다.
AI는 동영상 및 오디오 클립의 트랜스크립션을 검색하여 부적절한 콘텐츠를 검색하고, 문제가 있는 자료에 플래그를 지정하여 사람이 후기할 수 있도록 지원함으로써 중재자 역할을 합니다.
예: Vatis Tech(ibm.com 외부 링크)는 마케팅에서 소셜 미디어 모니터링을 위해 Speech to Text 도구를 제공합니다. 이를 통해 브랜드는 트렌드를 파악하고 고객 상호 작용의 의도를 파악할 수 있습니다.13
1. 소리에서 이미지까지, 1부: 스펙트로그램 생성에 대한 심층 분석(ibm.com 외부 링크), Cornell Lab Macaulay Library, 2021년 7월 19일
2. 강의 12: 음성 인식 개요(ibm.com 외부 링크), University of Rochester Computer Science
3. Google AI를 사용하여 음성을 텍스트로 변환(ibm.com 외부 링크), Google Cloud
4. Speech to Text REST API(ibm.com 외부 링크), Microsoft
5. Amazon Transcribe API 참조 자료(ibm.com 외부 링크), AWS
6. iPhone 사용자 가이드(ibm.com 외부 링크), Apple
7. 음성으로 입력하기(ibm.com 외부 링크), Google Support
8. Audrey, Alexa, Hal 등(ibm.com 외부 링크), 컴퓨터 역사 박물관, 2021년 6월 9일
9. 음성 인식: 과거, 현재, 미래(ibm.com 외부 링크), Carnegie Mellon University Computer Science
10. Amazon Transcribe Medical(ibm.com 외부 링크), AWS
11. Alexa, 새로운 음성 인식, Text to Speech 기술 공개(ibm.com 외부 링크), Amazon, 2023년 9월 20일
12. PC에서 입력하는 대신 음성 입력을 사용하여 말하기(ibm.com 외부 링크), Microsoft
13. 미디어 모니터링 인텔리전스 - 모든 오디오를 인사이트로 전환(ibm.com 외부 링크), Vatis Tech
튜토리얼 살펴보기
watsonx 사용해 보기
시작하기
온디맨드로 시청하기