Es mag nach SciFi-Film klingen, aber Fakt ist - wir sind von künstlicher Intelligenz umgeben. Jedes Mal, wenn Sie eine Social-Media-App öffnen, haben Sie Ihre Feed künstlicher Intelligenz zu verdanken, die Inhalte für Sie personalisiert. Jedes Mal, wenn Sie "Hey Siri" sagen, ist es künstliche Intelligenz, die es Ihrem Handy ermöglicht, Ihre Fragen zu verstehen.
KI-Transkription ist ein weiteres Beispiel dafür, wie künstliche Intelligenz im Alltag verwendet wird. Aber was genau ist eine KI-Transkription? Wie ist sie entstanden, wie wird sie heute verwendet und wie wahrscheinlich ist es, dass sie auch zukünftig verwendet wird? In diesem Beitrag gehen wir auf Ihre brennenden Fragen zur KI-Transkription ein...
KI-Transkription verwendet künstliche Intelligenz zur Umwandlung von Sprache in Text. Statt dass ein Mensch physisch Notizen machen oder eine Audioaufnahme transkribieren muss, übernimmt die KI-Transkription diese Arbeit für Sie, indem sie Ihre Audiodaten minutenschnell in Text umwandelt.
Die Vorteile von KI-Transkriptionen (auch Spracherkennung, Computer-Spracherkennung oder automatische Spracherkennung genannt) sind klar und greifbar. Der wohl offensichtlichste Vorteil ist die Schnelligkeit. Meist können Sie innerhalb von Minuten, wenn nicht sogar Sekunden, eine Abschrift erhalten. Stellen Sie sich vor, wie lange es dauern würde, wenn Sie die Transkription von Hand anfertigen müssten...
KI-Transkriptionen sind in der Regel auch viel billiger als menschliche Transkriptionsdienste. Das liegt daran, dass die Transkription einer Stunde Audiomaterial durch einen Fachmann etwa vier Stunden dauert, und der Durchschnittspreis liegt bei 75 Cent bis \1,50 $ pro Minute. Das ergibt einen Preis von $45-$90 pro Stunde Audiotranskription. Im Vergleich dazu kostet eine Stunde Transkriptionszeit bei Transcribe nur $2.
Die Erklärung ist sehr technisch. Wir versuchen, es so einfach wie möglich zu halten. Stellen Sie sich vor, wie ein Kind das Sprechen lernt. Es hört täglich Sprache um sich herum, wodurch sein Gehirn trainiert wird, Verbindungen zwischen Lauten, Wörtern und deren Bedeutung herzustellen.
Die Spracherkennungstechnologie funktioniert ähnlich. Mithilfe von fortschrittlichen maschinellen Lerntechniken und der Verarbeitung natürlicher Sprache werden Computer trainiert, Laute zu erkennen und Verbindungen zwischen diesen Lauten, Wörtern und ihrer Bedeutung herzustellen.
Spracherkennungssoftware vergleicht das Gehörte mit einem riesigen Vokabular von gespeicherten Wörtern, Ausdrücken und Sätzen, um es in Text umzuwandeln. Fertig ist Ihre KI-Transkription!
Die KI-Transkription ist nicht über Nacht entstanden, sondern etwas, an dem Wissenschaftler seit Jahrzehnten gearbeitet haben. Hier ein kurzer Überblick über die Geschichte der Spracherkennung.
1952 - Das allererste Spracherkennungssystem - namens Audrey - wurde von den Bell Laboratories entwickelt. Es konnte den Klang einer gesprochenen Ziffer (Null bis Neun) mit mehr als 90% Genauigkeit erkennen. Dies funktionierte am besten mit der Stimme des Entwicklers, bei fremden Stimmen war das System weniger genau.
1960er - Auf der Weltausstellung von 1962 stellte IBM die Shoebox vor, die 16 gesprochene englische Wörter verstehen konnte. Im selben Jahrzehnt entwickelten die Sowjets einen Algorithmus, der 200 Wörter erkennen konnte. All dies basierte auf dem Abgleich einzelner Wörter mit gespeicherten Sprachmustern.
1970er - Ein vom US-Verteidigungsministerium finanziertes Programm an der Carnegie Mellon University entwickelte "Harpy", ein Programm, das über einen Wortschatz von über 1.000 Wörtern verfügte. Der größte Durchbruch war, dass das Programm ganze Sätze erkennen konnte.
1980er - IBM entwickelte eine sprachgesteuerte Schreibmaschine namens Tangora, die über einen Wortschatz von 20.000 Wörtern verfügte und mit Hilfe von Statistiken Wörter vorhersagen und identifizieren konnte.
1990er - Gleich zu Beginn des Jahrzehnts brachte Dragon Systems das erste Spracherkennungsprodukt für Verbraucher auf den Markt: Dragon Dictate. Im Jahr 1997 wurde ein Updates namens Dragon NaturallySpeaking veröffentlicht. Es war das erste Produkt zur kontinuierlichen Spracherkennung und konnte Sprache mit 100 Wörtern pro Minute erkennen. Es wird übrigens auch heute noch verwendet!
Ab den 2000er Jahren - Die KI-Sprach-zu-Text-Technologie hat in den letzten Jahrzehnten enorme Fortschritte gemacht. Google war mit seiner Sprachsuche führend, und auch Apple, Amazon und Microsoft haben sich daran versucht.
Die KI-Transkription wird heute auf vielfältige Weise genutzt. Vom Diktieren von Nachrichten an Ihre Freunde und Familie bis hin zur Bitte an Siri, eine Google-Suche für Sie durchzuführen - die Chancen stehen gut, dass Sie bereits auf die eine oder andere Weise von der KI-Transkription profitieren.
Die KI-Transkription ist auch beliebt, wenn es darum geht, schriftliche Transkriptionen von Sitzungen, Vorträgen, Interviews und Podcasts zu erhalten:
Unternehmen verwenden sie, um schriftliche Notizen von Meetings, Konferenzen und Zoom-Anrufen zu erhalten.
Akademiker verwenden sie, um Vorlesungsmitschriften zu erstellen, die sie mit ihren Schülern teilen, und um Abschriften von Interviews zu erhalten, die sie im Rahmen ihrer wissenschaftlichen Forschung geführt haben.
Studenten verwenden sie, um sich die Mühe zu ersparen, während der Vorlesungen und Seminare Notizen zu machen, und erhalten innerhalb weniger Minuten nach Unterrichtsende eine schriftliche Mitschrift, die sie zum Lernen verwenden können.
Podcaster verwenden sie, um Transkriptionen zu erhalten, die sie zusammen mit ihren Podcasts veröffentlichen.
Journalisten verwenden sie, um Notizen zu Interviews und Pressekonferenzen zu erhalten und um Untertitel zu Videointerviews hinzuzufügen.
Das sagen die Daten:
Laut Statista sind das e-Learning und die Marktforschung die beiden wichtigsten Branchen, die KI-Transkription verwenden, mit einer Nutzungsrate von 64%. Dicht darauf folgen die Software- und Internetbranche sowie die Werbe- und Marketingbranche.
Der weltweite Markt für Spracherkennung wird voraussichtlich von $10,7 Milliarden US-Dollar im Jahr 2020 auf $27,16 Milliarden im Jahr 2026 wachsen, wobei die KI-Transkription unweigerlich von diesem Wachstum profitieren wird. Mit zunehmenden Investitionen werden sich die Fähigkeiten von KI und maschinellem Lernen im Laufe der Monate und Jahre weiter verbessern. Die KI-Transkription wird immer schneller, genauer und zugänglicher werden, sodass sie bei denjenigen, die aktuell menschliche Transkriptionsdienste oder DIY-Transkriptionsmethoden nutzen, immer beliebter wird.
Je weiter die KI-Software entwickelt wird, desto besser wird sie in der Lage sein, verschiedene Akzente zu verstehen und zwischen verschiedenen Sprechern zu unterscheiden. Sie könnte sogar in der Lage sein, Themenanalysen durchzuführen und Zusammenfassungen zu erstellen.
Schlussendlich wird die KI-Transkription Meetings produktiver machen, die Effizienz am Arbeitsplatz steigern und es Unternehmen und Privatpersonen ermöglichen, Sprache schnell, kostengünstig und präzise in Text umzuwandeln.
Möchten Sie sehen, wie Sie selbst von der KI-Transkription profitieren können? Laden Sie die Transcribe App herunter oder verwenden Sie den Online Editor, um loszulegen.
Verfasst von Katie Garrett