Historia rozpoznawania mowy

Historia rozpoznawania mowy

Oprogramowanie do rozpoznawania mowy pozwala telefonom i komputerom zrozumieć ludzkie wypowiedzi - niezależnie od tego, czy jest to pytanie, polecenie, czy ogólne wykrzyknienie. I choć jeszcze kilkadziesiąt lat temu taka możliwość pozostawała w sferze science fiction, dziś jest to już mocno zakorzeniona część codziennego życia.

Począwszy od sprawdzania prognozy pogody i wybierania playlisty, po wysyłanie SMS-ów i weryfikację tożsamości – korzystanie z funkcji rozpoznawania mowy jest już tak zakorzenione w społeczeństwie, że rzadko się nad tym zastanawiamy!

Skąd jednak wzięła się ta technologia? Kiedy to wszystko się zaczęło? I jak wygląda przyszłość? Przyjrzyjmy się historii rozpoznawania mowy, temu, jak jest ona wykorzystywana dzisiaj i co czeka nas w przyszłości.

Krótka historia rozpoznawania mowy: oś czasu

Lata 1950

Pierwszy w historii system rozpoznawania mowy został zbudowany w 1952 roku przez Bell Laboratories. Nazwany "Audrey", ten sprytny mechanizm potrafił rozpoznać dźwięk wypowiadanej cyfry (od zera do dziewięciu) z ponad 90% dokładnością - jednak tylko wtedy, gdy wypowiadał ją jego twórca. Był znacznie mniej dokładny w przypadku nieznanych głosów.

Lata 1960

IBM zaprezentował Shoebox na targach światowych w Seattle w 1962 roku. Urządzenie potrafiło zrozumieć 16 mówionych angielskich słów. Później, w latach 60-tych, Sowieci stworzyli algorytm, który potrafił rozpoznać 200 słów. Opierały się one na dopasowaniu poszczególnych słów do zapisanych wzorców głosowych.

Lata 1970

W ramach finansowanego przez Departament Obrony USA programu na Carnegie Mellon University opracowano system Harpy, która dysponował zasobem ponad 1000 słów. Największym przełomem było to, że potrafił on rozpoznawać nie tylko słowa, ale całe zdania.

Lata 1980

IBM powrócił do czołówki w latach 80. z aktywowaną głosem maszyną do pisania o nazwie Tangora. Posiadała ona słownik składający się z 20 000 słów i wykorzystywała statystyki do przewidywania i identyfikacji słów.

Lata 1990

Na początku lat 90-tych firma Dragon Systems wypuściła pierwszy konsumencki produkt do rozpoznawania mowy, nazwany Dragon Dictate. W 1997 r. wydano uaktualnienie o nazwie Dragon NaturallySpeaking. Był to pierwszy produkt do ciągłego rozpoznawania mowy, który mógł rozpoznawać mowę z szybkością 100 słów na minutę. Ta technologia jest nadal używana - w rzeczywistości została przejęta przez firmę Microsoft w 2021 roku!

Lata 2000 i obecnie

W ciągu ostatnich kilku dekad technologia AI przekształcająca mowę na tekst rozwinęła się skokowo. Na czele stoi Google ze swoim produktem do wyszukiwania głosowego, a kluczowymi graczami są także Apple, Amazon i Microsoft.

Jakie są dwa rodzaje rozpoznawania mowy

Istnieją dwa rodzaje rozpoznawania mowy: zależne od mówcy i niezależne od mówcy.

  • Zależne od mówcy

Oprogramowanie do rozpoznawania mowy zależne od mówcy jest szkolone do rozpoznawania konkretnego głosu, w podobny sposób jak oprogramowanie do rozpoznawania głosu.

Nowi użytkownicy muszą "trenować" program mówiąc do niego - co często wiąże się z przeczytaniem kilku stron tekstu. W ten sposób komputer może przeanalizować głos i nauczyć się go rozpoznawać.

Rozpoznawanie mowy zależne od mówcy zapewnia na ogół bardzo wysoką dokładność.

  • Niezależne od mówcy

Oprogramowanie niezależne od mówcy jest przeznaczone do rozpoznawania głosu każdej osoby, co oznacza, że nie wymaga żadnego szkolenia. Oprogramowanie koncentruje się na rozpoznawaniu słów, a nie konkretnego głosu.

Ten rodzaj rozpoznawania mowy jest zazwyczaj mniej dokładny, ale jest to jedyna realna opcja dla interaktywnych odpowiedzi głosowych (IVR), takich jak te używane przez centra telefoniczne, ponieważ firmy nie mogą prosić dzwoniących o przeczytanie stron tekstu przed użyciem ich systemów.

Jak obecnie wykorzystywane jest rozpoznawanie mowy

Oto kilka sposobów, w jakie oprogramowanie do rozpoznawania mowy jest obecnie wykorzystywane w życiu codziennym:

  • Smartfony

Za każdym razem, gdy mówisz "hey Siri", jest to oprogramowanie do rozpoznawania mowy, które zasila tych wirtualnych asystentów i pozwala nam korzystać z naszych urządzeń wykorzystując po prostu rozmowę!

  • Inteligentne głośniki

Inteligentne głośniki, takie jak Amazon Echo i Apple HomePod, również mają wbudowanych wirtualnych asystentów. W 2020 roku w użyciu było 320 milionów inteligentnych głośników, a do 2024 roku liczba ta ma się podwoić!

  • Centra obsługi telefonicznej (call center)

Rozpoznawanie mowy ma miejsce za każdym razem, gdy dzwonisz do centrum telefonicznego i nagrany głos prosi Cię o podanie nazwiska, numeru referencyjnego lub streszczenia zapytania. Jest to tak zwana interaktywna odpowiedź głosowa.

  • Systemy bezpieczeństwa

Wiele systemów zabezpieczeń, jak np. te stosowane przez banki, wykorzystuje biometrię głosową jako sposób bezpiecznego sprawdzenia klienta.

  • Oprogramowanie do transkrypcji

Automatyczne usługi transkrypcji, takie jak Transcribe, wykorzystują rozpoznawanie mowy do konwersji mowy na tekst, dostarczając Ci transkrypcje w ciągu kilku minut, jeśli nawet nie sekund.

Przyszłość rozpoznawania mowy

Rozpoznawanie mowy będzie coraz szerzej stosowane. Na przykład:

Im więcej jest funkcja rozpoznawania mowy jest używana, im więcej zbiera się danych o mowie i im więcej inwestuje się w to rozwiązanie, tym dokładniejsze będzie oprogramowanie do rozpoznawania mowy. Będzie ono coraz lepiej rozumieć różne akcenty, rozróżniać mówców, a nawet rozpoznawać emocje. W końcu może również nauczyć się rozumieć różne języki i dialekty jednocześnie.

Nikt nie może być pewien, co przyniesie przyszłość, ale oprogramowanie do rozpoznawania mowy jest na dobrej drodze, aby stać się lepszym, dokładniejszym i bardziej użytecznym niż kiedykolwiek wcześniej.

Jeśli uznałeś ten temat za interesujący, być może zechcesz dowiedzieć się więcej na temat transkrypcji AI, włączając w to sposób, w jaki działa, jak jest wykorzystywana dzisiaj i czego można się po niej spodziewać w przyszłości.


Autor: Katie Garrett

Subskrybuj wiadomości

Dziękujemy za subskrypcję naszego newslettera!