Rozpoznawanie mowy

menu icon

Rozpoznawanie mowy

Poznaj historię funkcji rozpoznawania mowy i jej różnorodne zastosowania w dzisiejszym świecie

Czym jest rozpoznawanie mowy?

Rozpoznawanie mowy, zwane również automatycznym rozpoznawaniem mowy (ASR), komputerowym rozpoznawaniem mowy i technologią przetwarzania mowy na tekst, jest funkcją, która umożliwia programowi przetwarzanie ludzkiej mowy na format pisemny. Rozpoznawanie mowy jest często mylone z rozpoznawaniem głosu, jednak koncentruje się ono na konwersji mowy z formatu werbalnego na tekstowy, podczas gdy rozpoznawanie głosu ma na celu jedynie identyfikację głosu użytkownika.

IBM odgrywa znaczącą rolę w rozwijaniu funkcji rozpoznawania mowy od początków jej istnienia, począwszy od wypuszczenia w 1962 roku maszyny „Shoebox”. Maszyna ta była w stanie rozpoznać 16 różnych słów, co stanowiło postęp w stosunku do początkowych prac Bell Labs z lat 50. Jednak wysiłki IBM nie zakończyły się na tym i w kolejnych latach kontynuowano wprowadzanie innowacji, co w 1996 r. zaowocowało wydaniem aplikacji VoiceType Simply Speaking. To oprogramowanie do rozpoznawania mowy dysponowało słownikiem zawierającym 42 000 słów, obsługiwało języki angielski i hiszpański oraz zawierało słownik ortograficzny obejmujący 100 000 słów. Chociaż na początku technologia rozpoznawania mowy miała ograniczony zasób słów, dziś jest wykorzystywana w wielu branżach, takich jak motoryzacja, technika i ochrona zdrowia. W ostatnich latach jej zastosowanie stało się jeszcze bardziej popularne dzięki postępom w dziedzinie głębokiego uczenia i wielkich zbiorów danych. Badania (odnośnik prowadzi poza serwis IBM) pokazują, że wartość tego sektora rynku osiągnie 24,9 mld USD do 2025 roku.

Kluczowe cechy skutecznego rozpoznawania mowy

Na rynku dostępnych jest wiele aplikacji i urządzeń do rozpoznawania mowy, ale te bardziej zaawansowane wykorzystują sztuczną inteligencję i uczenie maszynowe. Łączą one gramatykę, składnię, strukturę i kompozycję sygnałów dźwiękowych i głosu, aby zrozumieć i przetworzyć ludzką mowę. W idealnej sytuacji uczą się one w trakcie pracy — udoskonalając reakcje przy każdej interakcji.

Najlepsze systemy pozwalają również organizacjom na dostosowanie technologii do swoich specyficznych wymagań — od języka i niuansów mowy po rozpoznawanie marki. Oto przykłady:

  • Ważenie języka: zwiększenie precyzji poprzez nadanie wagi konkretnym słowom, które są często używane (takim jak nazwy produktów lub żargon branżowy), wykraczając poza terminy zawarte w słownictwie podstawowym.
  • Etykietowanie mówców: tworzenie transkrypcji, która cytuje lub oznacza wypowiedź każdego mówcy w konwersacji z udziałem wielu uczestników.
  • Szkolenie akustyczne: wzięcie pod uwagę akustycznego aspektu przedsiębiorstwa. Możliwość przeszkolenia systemu w adaptacji do środowiska akustycznego (np. hałas otoczenia w centrum zgłoszeniowym) i stylu mówcy (np. ton głosu, głośność i tempo mowy).
  • Filtrowanie przekleństw: stosowanie filtrów do identyfikacji określonych słów lub fraz i oczyszczania z nich wypowiedzi.

Tymczasem rozpoznawanie mowy wciąż się rozwija. Przedsiębiorstwa, takie jak IBM, dokonują postępów w kilku obszarach, aby jeszcze bardziej usprawnić interakcję między człowiekiem a maszyną.

Algorytmy rozpoznawania mowy

Zawiłości ludzkiej mowy sprawiają, że rozwój algorytmów rozpoznawania mowy jest dużym wyzwaniem. Uważa się, że jest to jedna z najbardziej złożonych dziedzin informatyki, obejmująca lingwistykę, matematykę i statystykę. Systemy rozpoznawania mowy składają się z kilku komponentów, takich sygnał wejściowy mowy, ekstrakcja cech, wektory cech, dekoder i słowa wyjściowe. Dekoder wykorzystuje modele akustyczne, słownik wymowy i modele językowe w celu określenia odpowiedniego wyniku wyjściowego.

Technologia rozpoznawania mowy jest oceniana na podstawie jej dokładności, tj. poziomu błędów w słowach (WER), i szybkości. Na poziom błędów może mieć wpływ wiele czynników, takich jak wymowa, akcent, wysokość dźwięku, głośność i hałas w tle. Osiągnięcie poziomu błędów równego poziomowi błędów dwóch mówiących osób jest od dawna celem systemów rozpoznawania mowy. Według badania przeprowadzonego przez Lippmanna (odsyłacz prowadzi poza serwis IBM) (PDF, 344 kB) poziom błędów wynosi ok. 4 procent, ale trudno jest powtórzyć wynik z tego sprawozdania.

Dowiedz się więcej o tym, jak IBM czyni postępy w dziedzinie rozpoznawania mowy, bijąc rekordy branży.

Do przetwarzania mowy na tekst i zwiększania dokładności transkrypcji używane są różne algorytmy i techniki obliczeniowe. Poniżej znajdują się krótkie objaśnienia niektórych z najczęściej stosowanych metod:

  • Przetwarzanie języka naturalnego (NLP): wprawdzie NLP niekoniecznie jest konkretnym algorytmem używanym w rozpoznawaniu mowy, ale jest to obszar sztucznej inteligencji, który skupia się na interakcji między ludźmi i maszynami poprzez język, mowę i tekst. Wiele urządzeń przenośnych zawiera w swoich systemach funkcję rozpoznawania mowy na potrzeby przeprowadzenia wyszukiwania głosowego, np. Siri, lub zapewnienia większej dostępności usług wiadomości tekstowych.
  • Ukryte modele Markowa (HMM): ukryte modele Markowa opierają się na modelu łańcucha Markowa, który zakłada, że prawdopodobieństwo danego stanu zależy od stanu bieżącego, a nie od stanów wcześniejszych. O ile model łańcucha Markowa jest użyteczny dla obserwowalnych zdarzeń, takich jak wprowadzanie tekstu, ukryte modele Markowa pozwalają nam na włączenie do modelu probabilistycznego ukrytych zdarzeń, takich jak znaczniki części mowy. Są one wykorzystywane jako modele sekwencji w rozpoznawaniu mowy, z etykietami przypisanymi do każdej jednostki w danej sekwencji, tj. słów, sylab, zdań. Etykiety te są mapowane z podanymi danymi wejściowymi, pozwalając na określenie najbardziej odpowiedniej sekwencji etykiet.
  • N-gramy: jest to najprostszy typ modelu językowego (LM), który przypisuje prawdopodobieństwa do zdań lub fraz. N-gram jest sekwencją n-słów. Na przykład „zamów jakąś pizzę” jest trigramem, lub 3-gramem, a „proszę, zamów jakąś pizzę” jest 4-gramem. Gramatyka i prawdopodobieństwo pewnych sekwencji słów są wykorzystywane do zwiększenia dokładności funkcji rozpoznawania mowy.
  • Sieci neuronowe: wykorzystywane głównie w algorytmach głębokiego uczenia sieci neuronowe przetwarzają dane szkoleniowe, naśladując wzajemne powiązania neuronów w ludzkim mózgu za pomocą warstw węzłów. Każdy węzeł składa się z danych wejściowych, wag, obciążenia (lub progu) i danych wyjściowych. Jeśli wartość wyjściowa przekroczy dany próg, to „wyzwoli” lub aktywuje węzeł, który przekaże dane do następnej warstwy w sieci. Sieci neuronowe uczą się tej funkcji mapowania poprzez uczenie nadzorowane, dostosowując się w oparciu o funkcję straty poprzez proces spadku gradientu. Chociaż sieci neuronowe są zazwyczaj dokładniejsze i mogą przyjąć więcej danych, odbywa się to kosztem wydajności, ponieważ sieci te mają tendencję do wolniejszego uczenia się w porównaniu do tradycyjnych modeli językowych.
  • Diaryzacja mówców (SD): algorytmy diaryzacji mówców identyfikują i segmentują mowę według tożsamości mówcy. Pomaga to programom lepiej rozróżniać osoby uczestniczące w rozmowie i jest często stosowane w centrach zgłoszeniowych do rozróżniania klientów i agentów sprzedaży.

Przeczytaj na blogu Watson, w jaki sposób IBM wykorzystuje modele SD w swoich usługach przetwarzania mowy na tekst.

Przykłady użycia funkcji rozpoznawania mowy

Obecnie wiele branż wykorzystuje różne zastosowania technologii rozpoznawania mowy, pomagając przedsiębiorstwom i konsumentom oszczędzać czas, a nawet ratować życie. Oto niektóre przykłady użycia:

Przemysł motoryzacyjny: rozpoznawanie mowy zwiększa bezpieczeństwo kierowców, gdyż umożliwia aktywowanie głosem systemów nawigacyjnych i funkcji wyszukiwania w radiach samochodowych.

Branża technologiczna: wirtualni asystenci są coraz bardziej zintegrowani z naszym codziennym życiem, szczególnie na naszych urządzeniach mobilnych. Używamy komend głosowych, korzystając z asystentów, jak na przykład Google Assistant lub Siri firmy Apple do wykonywania zadań, takich jak wyszukiwanie głosowe na naszych smartfonach. A Alexa firmy Amazon lub Cortana firmy Microsoft reagują na wydawane polecenia odtwarzania muzyki przez głośniki. Usługi wirtualnych asystentów będą coraz bardziej integrować się z produktami codziennego użytku, napędzając rozwój internetu rzeczy.

Ochrona zdrowia: lekarze i pielęgniarki wykorzystują aplikacje do dyktowania, aby przechwytywać i zapisywać diagnozy pacjentów i informacje dotyczące leczenia.

Sprzedaż: technologia rozpoznawania mowy ma kilka zastosowań w sprzedaży. Może pomóc centrum zgłoszeniowemu w transkrypcji tysięcy rozmów telefonicznych między klientami a agentami w celu zidentyfikowania często występujących wzorców połączeń i problemów. Kognitywne boty mogą również rozmawiać z ludźmi za pośrednictwem strony internetowej, odpowiadając na typowe pytania i rozwiązując podstawowe problemy bez konieczności czekania na dostępność agenta centrum obsługi. W obu przypadkach systemy rozpoznawania mowy pomagają skrócić czas rozwiązywania problemów konsumenckich.

Bezpieczeństwo: w miarę jak technologia integruje się z naszym codziennym życiem, coraz wyższym priorytetem stają się protokoły bezpieczeństwa. Realny poziom bezpieczeństwa może zapewnić uwierzytelnianie głosowe.

Dowiedz się, jak firmy, takie jak Audioburst, wykorzystują oprogramowanie do rozpoznawania mowy do indeksowania dźwięku ze stacji radiowych i podcastów w czasie rzeczywistym na naszym blogu, tutaj

Rozpoznawanie mowy i IBM

IBM jest pionierem rozwoju narzędzi i usług rozpoznawania mowy, które umożliwiają organizacjom automatyzację złożonych procesów biznesowych przy jednoczesnym pozyskiwaniu istotnych informacji biznesowych.

  • IBM Watson Speech to Text to rozwiązanie od początku przeznaczone dla chmury, które stosuje oparte na sztucznej inteligencji algorytmy głębokiego uczenia, aby wykorzystać wiedzę o gramatyce, strukturze języka oraz kompozycji sygnału dźwiękowego/głosowego do tworzenia konfigurowalnych metod rozpoznawania mowy w celu optymalnej transkrypcji tekstu.
  • IBM Watson Text to Speech na podstawie tekstu pisanego generuje dźwięk podobny do ludzkiego głosu, pozytywnie wpływając na zaangażowanie i zadowolenie klientów dzięki zwiększeniu sposobów interakcji i dostępności w różnych językach.

Aby uzyskać więcej informacji o tym, jak rozpocząć pracę z technologią rozpoznawania mowy, zapoznaj się z produktami IBM Watson Speech to Text oraz IBM Watson Text to Speech.

Zarejestruj się, aby uzyskać IBMid i utworzyć konto w chmurze IBM Cloud.