Spracherkennungssoftware ermöglicht es Handys und Computern, die menschliche Sprache zu verstehen - sei es eine Frage, ein Befehl oder eine allgemeine Aufforderung. Und während dies vor einigen Jahrzehnten noch in den Bereich der Science-Fiction gehört hätte, ist die Spracherkennung heute ein fester Bestandteil des Alltags.
Vom Abrufen der Wettervorhersage und der Auswahl einer Playlist bis hin zum Versenden von SMS und der Verifizierung der eigenen Identität - die Verwendung von Spracherkennung ist bereits so tief in der Gesellschaft verwurzelt, dass wir kaum noch darüber nachdenken.
Aber woher kommt diese Technologie? Wann hat alles angefangen? Und wie sieht die Zukunft aus? In diesem Beitrag werfen wir einen Blick auf die Geschichte der Spracherkennung, wie sie heute eingesetzt wird und was die Zukunft bringt.
Das allererste Spracherkennungssystem - namens Audrey - wurde von den Bell Laboratories entwickelt. Es konnte den Klang einer gesprochenen Ziffer (Null bis Neun) mit mehr als 90% Genauigkeit erkennen. Dies funktionierte am besten mit der Stimme des Entwicklers, bei fremden Stimmen war das System weniger genau.
Auf der Weltausstellung von 1962 stellte IBM die Shoebox vor, die 16 gesprochene englische Wörter verstehen konnte. Im selben Jahrzehnt entwickelten die Sowjets einen Algorithmus, der 200 Wörter erkennen konnte. All dies basierte auf dem Abgleich einzelner Wörter mit gespeicherten Sprachmustern.
Ein vom US-Verteidigungsministerium finanziertes Programm an der Carnegie Mellon University entwickelte "Harpy", ein Programm, das über einen Wortschatz von über 1.000 Wörtern verfügte. Der größte Durchbruch war, dass das Programm ganze Sätze erkennen konnte.
IBM entwickelte eine sprachgesteuerte Schreibmaschine namens Tangora, die über einen Wortschatz von 20.000 Wörtern verfügte und mit Hilfe von Statistiken Wörter vorhersagen und identifizieren konnte.
Gleich zu Beginn des Jahrzehnts brachte Dragon Systems das erste Spracherkennungsprodukt für Verbraucher auf den Markt: Dragon Dictate. Im Jahr 1997 wurde ein Updates namens Dragon NaturallySpeaking veröffentlicht. Es war das erste Produkt zur kontinuierlichen Spracherkennung und konnte Sprache mit 100 Wörtern pro Minute erkennen. Es wird übrigens auch heute noch verwendet und wurde 2021 von Microsoft gekauft!
Die KI-Sprach-zu-Text-Technologie hat in den letzten Jahrzehnten enorme Fortschritte gemacht. Google war mit seiner Sprachsuche führend, und auch Apple, Amazon und Microsoft haben sich daran versucht.
Es gibt zwei Arten von Spracherkennung: sprecherabhängig und sprecherunabhängig.
Sprecherabhängige Spracherkennungssoftware wird darauf trainiert, eine bestimmte Stimme zu erkennen, ähnlich wie Stimmerkennungssoftware.
Neue Benutzer müssen das Programm "trainieren", indem sie mit ihm sprechen - was oft bedeutet, dass sie ein paar Seiten Text lesen müssen. So kann der Computer die Stimme analysieren und lernen, sie zu erkennen.
Die sprecherabhängige Spracherkennung hat im Allgemeinen eine sehr hohe Genauigkeit.
Sprecherunabhängige Software ist so konzipiert, dass sie die Stimme eines jeden erkennt, was bedeutet, dass kein Training erforderlich ist. Die Software konzentriert sich auf die Worterkennung und nicht auf eine bestimmte Stimme.
Diese Art der Spracherkennung ist allgemein weniger genau, aber es ist die einzig wahre Option für interaktive Sprachdialoganwendungen (IVR), wie sie beispielsweise von Callcentern verwendet werden, da Unternehmen von Anrufern nicht verlangen können, dass sie seitenweise Text lesen, bevor sie ihre Systeme nutzen.
Hier ein paar Beispiele für die Verwendung von Spracherkennungssoftware im täglichen Leben:
Immer, wenn Sie "Hey Siri" sagen, wird Ihre Anfrage von einer Spracherkennungssoftware verarbeitet. Die Software fungiert als eine Art virtueller Assistent und ermöglicht es uns, unsere Geräte einfach durch Sprechen zu bedienen!
Smart-Speaker wie Amazon Echo und Apple HomePod verfügen ebenfalls über integrierte virtuelle Assistenten. Im Jahr 2020 waren 320 Millionen Smart-Speaker im Einsatz, und diese Zahl wird sich bis 2024 wahrscheinlich verdoppeln!
Jedes Mal, wenn Sie ein Callcenter anrufen und eine aufgezeichnete Stimme Sie auffordert, Ihren Namen, Ihre Referenznummer oder eine Zusammenfassung Ihrer Anfrage zu formulieren, ist Spracherkennung im Spiel. Dies wird als Interactive Voice Response bezeichnet.
Viele Sicherheitssysteme, wie z. B. die von Banken, verwenden die Stimmbiometrie als Mittel zur Sicherheitsprüfung eines Kunden.
Automatische Transkriptionsdienste, wie Transcribe, verwenden Spracherkennung, um Sprache in Text umzuwandeln und Ihnen innerhalb von Minuten, wenn nicht sogar Sekunden, Abschriften zu liefern.
Die Spracherkennung wird sich immer mehr durchsetzen. Zum Beispiel:
Der weltweite Markt für Spracherkennung wird voraussichtlich von $10,7 Mrd. USD im Jahr 2020 auf $ 27,16 Mrd. USD im Jahr 2026 wachsen
Die Zahl der Smart-Speaker [wird sich bis 2024 verdoppeln (von 320 Millionen){.underline}
Auch die Zahl der in Geräten verwendeten digitalen Sprachassistenten wird sich weltweit verdoppeln, von 4,2 Mrd. im Jahr 2020 auf 8,4 Mrd. im Jahr 2024 - diese Zahl ist größer als die Weltbevölkerung.
Je mehr sie genutzt wird, je mehr Sprachdaten gesammelt werden und je mehr Investitionen in sie fließen, desto genauer wird die Spracherkennung. Sie wird besser darin, verschiedene Akzente zu verstehen, zwischen Sprechern zu unterscheiden und sogar Emotionen zu erkennen. Irgendwann wird sie vielleicht auch lernen, verschiedene Sprachen und Dialekte gleichzeitig zu verstehen.
Niemand kann mit Sicherheit sagen, was die Zukunft bringt, aber Spracherkennungssoftware ist fast nicht mehr aus unserem Alltag wegzudenken.
Im folgenden Beitrag finden Sie mehr zum Thema KI-Transkription, einschließlich, wie sie funktioniert, wie sie heute verwendet wird und wie die Zukunft aussehen könnte.
Verfasst von Katie Garrett