Il software di riconoscimento vocale consente a telefoni e computer di comprendere le espressioni umane, che si tratti di una domanda, un comando o un'esclamazione generale. E mentre qualche decennio fa ciò sarebbe stato considerato fantascienza, al giorno d'oggi è una parte saldamente radicata della vita di tutti i giorni.
Dal controllo delle previsioni del tempo e dalla scelta di una playlist all'invio di messaggi e alla verifica della tua identità, l'uso del riconoscimento vocale è già così radicato nella società che raramente siamo restii ad usarlo!
Ma da dove viene questa tecnologia? Quando è iniziato tutto? E come sarà il futuro? Diamo un'occhiata alla storia del riconoscimento vocale, come viene utilizzato oggi e cosa ci riserva il futuro.
Il primo sistema di riconoscimento vocale è stato costruito nel 1952 dai Bell Laboratories. Soprannominato "Audrey", il sistema intelligente era in grado di riconoscere il suono di una cifra pronunciata (da zero a nove) con una precisione superiore al 90%, ma solo se pronunciata dal suo sviluppatore. Era molto meno accurato con voci sconosciute.
IBM ha presentato la scatola da scarpe alla Fiera mondiale del 1962 a Seattle. Il dispositivo poteva comprendere 16 parole inglesi parlate. Più tardi negli anni '60, i sovietici crearono un algoritmo in grado di riconoscere 200 parole. Questi erano basati su singole parole confrontate con modelli vocali memorizzati.
Un programma finanziato dal Dipartimento della Difesa degli Stati Uniti presso la Carnegie Mellon University ha sviluppato l'Arpia, che aveva un vocabolario di oltre 1.000 parole. Il più grande passo avanti qui era che poteva riconoscere non solo parole, ma intere frasi.
IBM è tornata in prima linea negli anni '80 con una macchina da scrivere ad attivazione vocale chiamata Tangora. Aveva un vocabolario di 20.000 parole e utilizzava statistiche per prevedere e identificare le parole.
All'inizio degli anni '90, Dragon Systems ha rilasciato il primo prodotto di riconoscimento vocale per consumatori, chiamato Dragon Dictate. Nel 1997 è stato rilasciato un aggiornamento chiamato Dragon NaturallySpeaking. Questo è stato il primo prodotto di riconoscimento vocale continuo e poteva riconoscere il parlato a una velocità di 100 parole al minuto. Questa tecnologia è ancora utilizzata oggi, infatti è stata acquisita da Microsoft nel 2021!
La tecnologia IA voce-testo ha fatto passi da gigante negli ultimi due decenni. Google ha aperto la strada con il suo prodotto di ricerca vocale e anche Apple, Amazon e Microsoft sono tutti attori chiave.
Esistono due tipi di riconoscimento vocale: dipendente dal parlante e indipendente dal parlante.
Il software di riconoscimento vocale dipendente dal parlante è addestrato a riconoscere una voce specifica, in modo simile al software di riconoscimento vocale.
I nuovi utenti devono "addestrare" il programma parlandogli, il che spesso comporta la lettura di alcune pagine di testo. In questo modo il computer può analizzare la voce e imparare a riconoscerla.
Il riconoscimento vocale dipendente dal parlante fornisce generalmente una precisione molto elevata.
Il software indipendente dal parlante è progettato per riconoscere la voce di chiunque, il che significa che non è coinvolta alcuna formazione. Il software si concentra sul riconoscimento delle parole piuttosto che su una voce specifica.
Questo tipo di riconoscimento vocale è generalmente meno accurato, ma è l'unica vera opzione per le applicazioni di risposta vocale interattiva (IVR), come quelle utilizzate dai call center, poiché le aziende non possono chiedere ai chiamanti di leggere pagine di testo prima di utilizzare i loro sistemi.
Ecco alcuni dei modi in cui il software di riconoscimento vocale viene ora utilizzato nella vita di tutti i giorni:
Ogni volta che dici "hey Siri", è il software di riconoscimento vocale che alimenta questi assistenti virtuali e ci consente di utilizzare i nostri dispositivi semplicemente parlando!
Gli altoparlanti intelligenti come Amazon Echo e Apple HomePod hanno anche assistenti virtuali integrati. 320 milioni di smart speaker erano in uso nel 2020,destinati a raddoppiare nel 2024!
Il riconoscimento vocale è attivo ogni volta che chiami un call center e una voce registrata ti chiede di indicare il tuo nome, numero di riferimento o un riepilogo della tua richiesta. Si chiama risposta vocale interattiva.
Molti sistemi di sicurezza, come quelli utilizzati dalle banche, utilizzano la biometria vocale come mezzo per controllare la sicurezza di un cliente.
Servizi di trascrizione automatica come Transcribe utilizzanno il riconoscimento vocale per convertire il parlato in testo, fornendoti trascrizioni in pochi minuti, se non secondi.
L'utilizzo del riconoscimento vocale è destinato a diventare sempre più vasto. Ad esempio:
Per il mercato globale del riconoscimento globale è prevista una crescita dai $10.7 miliardi di dollari nel 2020 a $ 27.16 miliardi entro il 2026
Il numero degli altoparlanti intelligenti raddoppietà a (320 milioni) entro il 2024
Anche il numero di assistenti vocali digitali utilizzati nei dispositivi in tutto il mondo raddoppierà, da 4.2 miliardi nel 2020 a 8.4 miliardi nel 2024 - un numero maggiore della popolazione mondiale.
Più viene utilizzato, più dati vocali vengono raccolti e maggiore saranno gli investimenti, più accurato diventerà il software di riconoscimento vocale. Migliorerà la comprensione dei diversi accenti, la differenziazione tra i parlanti e persino il riconoscimento delle emozioni. Alla fine potrà anche imparare a comprendere lingue e dialetti diversi contemporaneamente.
Nessuno può sapere esattamente cosa riserva il futuro, ma il software di riconoscimento vocale è sulla buona strada per migliorare, essere più accurato e più utile che mai.
Se hai trovato interessante questo articolo, potresti voler saperne di più sulla trascrizione IA, incluso come funziona, come viene utilizzata oggi e cosa ci si può aspettare in futuro.
Scritto da Katie Garrett