Text to Speech란 무엇인가요?

작성자

IBM Content Contributor

Staff Editor

IBM Think

TTS(Text to Speech)는 디지털 인터페이스의 텍스트를 자연스러운 오디오로 변환하는 기술 유형입니다. "소리내어 읽기" 기술, 컴퓨터 생성 음성 또는 음성 합성이라고도 합니다. 대부분의 회사에서는 애플리케이션 프로그래밍 인터페이스(API)로 Text to Speech 기술을 제공합니다.

원래 TTS 시스템은 시각 장애 및 난독증과 같은 학습 장애가 있는 사용자가 특정 서비스를 더 쉽게 이용할 수 있도록 하는 보조 기술로 개발되었습니다. 이제 인공지능 기반 음성 생성기를 통해 텍스트 음성 변환 소프트웨어가 사람의 음성을 더 잘 모방할 수 있습니다.이 고객 서비스 전화 응답, AI 생성 팟캐스트, 보이스오버, 오디오북 내레이션과 같은 새로운 사용 사례의 물결이 열리고 있습니다.

Text to Speech의 진화

최초의 전기 음성 합성기는 1930년대 무렵¹에 등장했습니다. 초기의 기계는 제한적이고 작동이 복잡했습니다.

컴퓨터가 등장하면서 1950년대 후반부터 프로그래머들은 대규모 오디오 파일 데이터베이스를 소스 사운드로 액세스할 수 있는 알고리즘을 연구했습니다. 이러한 알고리즘은 텍스트 단위에 맞는 사운드를 찾고 음성 요소를 조합할 수 있습니다. 초기에는 생성된 음성이 로봇처럼 들렸습니다. 모델링 작업이 언어를 더 잘 특성화함에 따라 텍스트를 음성으로 변환하는 알고리즘이 개선되었습니다.

2000년대에 딥 러닝 기술과 신경망이 등장하면서 프로그래머는 음성 녹음을 사용하여 직접 웨이브폼을 모델링하기 시작했으며, 이를 통해 보다 사실적으로 들리는 고품질 음성을 얻을 수 있었습니다. 동시에 컴퓨터 과학자들은 음성 인식 소프트웨어와 자연어 처리를 개선했습니다. 대화형 AI의 개발은 음성을 텍스트로 변환하는 기술과 텍스트를 음성으로 변환하는 기술을 결합하는 데 달려 있었습니다.

AI와 머신 러닝 덕분에 자연스러운 음성을 생성하는 것이 더 쉬워졌지만, 딥페이크 등 새로운 논란의 여지가 생겼습니다. 기술 회사들은 오디오 딥페이크를 감지하기 위해 실시간 음성 분석 시스템을 개발하고 있습니다.

Text to Speech는 어떻게 작동하나요?

딥 러닝 기술을 통해 음성 합성 모델은 더 많은 데이터를 구문 분석하고 단어와 단어의 음향적 특징 사이의 관계를 더 잘 이해할 수 있습니다. 이 모든 것이 AI의 음성을 더욱 자연스럽게 만들어 줍니다. 텍스트를 음성으로 변환하는 것은 언어 분석과 음성 합성을 모두 포함하는 다단계 프로세스입니다.

text to speech의 주요 구성 요소는 다음과 같습니다.

언어 분석
음성 합성

언어 분석

모델의 심층 신경망에는 오디오 데이터 세트와 영어 및 다른 언어로 된 해당 트랜스크립션이 제공됩니다. 이를 통해 시스템은 단어가 음성과 어떻게 일치하는지와 악센트, 소리의 높낮이, 소리 크기, 어조, 리듬 등을 이해할 수 있습니다. 텍스트 입력을 받은 후 Text to Speech 모델은 단어, 구두점 및 문장 구조를 분석합니다. 약어와 표현을 확장하고, 단어의 길이를 계산하고, 일치하는 발음을 찾고, 구문과 문장의 운율을 그릴 수 있습니다.

음성 합성

텍스트가 분석되면 모델은 2단계 프로세스를 통해 이를 음성 출력으로 변환합니다.

1단계: 이 모델은 텍스트를 스펙트로그램(spectrogram)과 같은 시간 정렬된 기능으로 변환하며, 이는 시간 경과에 따른 빈도 변화를 매핑하는 데 사용됩니다. 이것은 말의 세부적인 특성과 단어의 문맥에 따른 발음, 강세 및 타이밍의 요인을 포착합니다.
2단계: 음성 인코딩(보코더) 네트워크는 시간에 맞춰 정렬된 특징을 오디오 파형으로 변환할 수 있으며, 컴퓨터는 이를 자연스러운 음성으로 변환할 수 있습니다. 특정 Text to Speech 모델을 사용하면 음량, 음높이, 속도를 변경하고 다양한 언어, 억양, 말하기 스타일 중에서 선택할 수 있습니다.

스마트폰과 같은 많은 장치에는 Text to Speech 시스템이 내장되어 있습니다. Text to speech는 소프트웨어 프로그램, 브라우저 확장, 웹 기반 도구 또는 다운로드 가능한 앱으로도 사용할 수 있습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

Text to Speech의 용도

Text to speech 기술은 원래 다양한 사용자의 접근성을 높이고 시각 장애가 있거나 읽기 장애가 있는 사람들이 컴퓨터 및 기타 장치를 통해 텍스트와 상호 작용할 수 있도록 하기 위해 개발되었습니다. 예를 들어 스티븐 호킹은 일종의 Text to Speech 기술을 사용합니다.

Text to Speech는 이후 주로 판독이 실용적이지 않거나 작업자의 시간을 절약할 수 있는 광범위한 사용 사례로 발전했습니다. 다음은 이 기술의 주요 사용 사례입니다.

오디오 콘텐츠
교육
챗봇 및 가상 어시스턴트
내비게이션
다국어 커뮤니케이션 및 언어 학습
미디어 및 엔터테인먼트
의료

오디오 콘텐츠

Text to Speech 소프트웨어는 디지털 텍스트, 책, 수업, 가이드, 지침 등을 음성으로 읽어주어 e-러닝 및 온라인 교육을 지원할 수 있습니다. 뉴스 조직은 이 기술을 사용하여 기사를 오디오 형식으로 변환할 수도 있습니다.

교육

텍스트 음성 변환 기능은 학생들이 주의를 기울이고 작성된 텍스트를 따라 읽는 데 도움이 되어 단어를 발음과 연관시킬 수 있도록 합니다. 또한 학생들이 새로운 문법 구조나 어휘를 접하게 되면서 독해력과 참여도가 향상될 수 있습니다. 또한 시각 장애나 난독증과 같은 학습 장애가 있는 사람들에게도 도움이 될 수 있습니다. Text to Speech는 에세이 과제를 교정하는 데 도움을 주기 위해 학생들이 작성한 작품을 소리 내어 읽어줄 수도 있습니다.

챗봇 및 가상 어시스턴트

가상 어시스턴트는 Apple의 Siri 또는 Microsoft의 Cortana와 같이 사용자의 요청을 이해하고 자연스러운 대화 방식으로 상호 작용하기 위해 텍스트를 음성으로 변환하고 음성을 텍스트로 변환합니다. 예를 들어 사용자가 운전할 때 알림을 브로드캐스트하고 문자를 읽어줄 수도 있습니다.

엔터프라이즈 환경에서 TTS 시스템은 고객 서비스를 보다 상호 작용적이고 자연스럽게 만들어 사용자 경험의 품질을 향상시킬 수 있습니다. TTS 시스템은 전화를 받고, 옵션을 제시하고, 사용자에게 응답할 수 있습니다. 이는 자동화된 전화 시스템의 핵심 부분입니다.

Text to Speech 기능을 통해 GPS 및 기타 매핑 앱이 실시간으로 운전자에게 방향을 전달할 수 있습니다. Text to Speech 이전에는 내비게이션 장치가 미리 녹음된 음성에 의존하여 좌회전 또는 우회전과 같은 프롬프트를 설정했습니다. Text to Speech를 통해 운전 지침이 더욱 개인화되었습니다. 예를 들어, GPS는 좌회전해야 하는 정확한 거리를 알려줄 수 있습니다.

다국어 커뮤니케이션 및 언어 학습

텍스트 음성 변환은 사용자가 Google 번역과 같은 앱을 통해 다양한 언어로 소통하는 데 도움이 될 수 있습니다. 이 유형의 앱 기능은 오디오를 한 언어에서 다른 언어로 번역할 수 있으며, 이는 비디오 콘텐츠를 더빙하는 데 사용할 수 있습니다. 언어 학습자가 자연스러운 음성에 노출되어 다양한 단어가 어떻게 발음되는지 이해하는 데 도움이 될 수 있습니다.

미디어 및 엔터테인먼트

TTS 기술이 발전함에 따라 미디어 제작 비용을 절감하는 데 사용할 수 있습니다. 예를 들어, 이 기술은 비디오 게임에서 해설과 내레이션을 생성하고 캐릭터의 음성 해설을 생성할 수 있습니다. 일부 스튜디오에서는 인간 성우와 협력하여 AI 목소리의 성능을 개선하기도 합니다.

의료

의료 기관은 Text to Speech 기술을 사용하여 환자와 접근 가능한 방식으로 소통합니다. 여기에는 웹 페이지 또는 소셜 미디어에 게시된 콘텐츠 및 문헌의 오디오 버전을 추가하는 것이 포함됩니다. 일부 기관에서는 특정 의료 기기 사용 방법에 대한 오디오 안내 지침을 추가하기도 합니다. 생성형 AI 기반 음성 인터페이스는 또한 전화를 통해 환자에게 예정된 약속을 상기시키거나 차트에 대한 뉴스나 업데이트를 알리는 데 도움이 될 수 있습니다. 이는 시각 장애, 언어 장애, 이동성 제한 및 학습 장애가 있는 환자에게 특히 중요할 수 있습니다.

각주

¹Text to Speech 기술(음성 합성), 미국 국립 표준 연구소, 2015년 12월 7일

과장된 기대를 넘어 — AI 어시스턴트가 실제 비즈니스 가치를 창출하는 방법

AI 어시스턴트의 주요 활용 사례를 살펴보고, 생성형 AI와 자동화 기술이 비즈니스에 미칠 수 있는 잠재적 영향을 이해하며, 이를 시작하는 방법을 알아보세요.

과대 광고 그 이상 - AI 어시스턴트가 실제 비즈니스 가치를 창출하는 방법

보고서를 읽고 AI 어시스턴트를 활용하는 주요 사용 사례를 살펴보고, 생성형 AI 및 자동화 기술이 비즈니스에 미치는 잠재적 영향을 이해하고, 시작하는 방법을 알아보세요.

Text to Speech란 무엇인가요?

작성자

Text to Speech의 진화

최신 기술 뉴스를 한발 앞서 파악

Text to Speech는 어떻게 작동하나요?

언어 분석

음성 합성

AI 디코딩: 주간 뉴스 요약

Text to Speech의 용도

오디오 콘텐츠

교육

챗봇 및 가상 어시스턴트

내비게이션

다국어 커뮤니케이션 및 언어 학습

미디어 및 엔터테인먼트

의료

각주

리소스

Text to Speech란 무엇인가요?

작성자

Text to Speech의 진화

최신 기술 뉴스를 한발 앞서 파악

Text to Speech는 어떻게 작동하나요?

언어 분석

음성 합성

AI 디코딩: 주간 뉴스 요약

Text to Speech의 용도

오디오 콘텐츠

교육

챗봇 및 가상 어시스턴트

내비게이션

다국어 커뮤니케이션 및 언어 학습

미디어 및 엔터테인먼트

의료

각주

Share

리소스