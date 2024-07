Spracherkennung, auch bekannt als automatische Spracherkennung (ASR), Computer-Spracherkennung oder Sprache-zu-Text, ist eine Funktion, die es einem Programm ermöglicht, menschliche Sprache in ein schriftliches Format umzuwandeln. Sie wird häufig mit der Stimmerkennung verwechselt, konzentriert sich aber auf die Übersetzung von Sprache aus einem verbalen Format in ein Textformat, während die Stimmerkennung lediglich dazu dient, die Stimme eines einzelnen Benutzers zu identifizieren.

IBM hat seit den Anfängen der Spracherkennung eine herausragende Rolle in diesem Bereich gespielt – so erstmals mit der Veröffentlichung von „Shoebox“ im Jahr 1962. Diese Maschine war in der Lage, 16 verschiedene Wörter zu erkennen, was eine Weiterentwicklung der ursprünglichen Arbeit von Bell Labs aus den 1950er Jahren darstellte. IBM beließ es jedoch nicht dabei, sondern entwickelte im Laufe der Jahre weitere Innovationen und brachte 1996 die Anwendung VoiceType Simply Speaking auf den Markt. Diese Spracherkennungssoftware hatte einen Wortschatz von 42.000 Wörtern, unterstützte Englisch und Spanisch und enthielt ein Rechtschreibwörterbuch mit 100.000 Wörtern. Während die Sprachtechnologie in den Anfängen nur einen begrenzten Wortschatz hatte, wird sie heute in einer Vielzahl von Branchen eingesetzt, z. B. in der Automobilindustrie, der Technik und dem Gesundheitswesen. In den letzten Jahren hat sich der Einsatz dieser Technologie aufgrund der Fortschritte in den Bereichen Deep Learning und Big Data weiter beschleunigt. Untersuchungen (Link befindet sich außerhalb von ibm.com) zeigen, dass dieser Markt bis 2025 voraussichtlich einen Wert von 24,9 Mrd. US-Dollar haben wird.