El software de reconocimiento de voz permite a los teléfonos y ordenadores comprender las expresiones humanas, ya sea una pregunta, un comando o una exclamación general. Y mientras que hace unas décadas esto habría estado en los reinos de la ciencia ficción, hoy en día es una parte firmemente establecida de la vida cotidiana.
Desde revisar el pronóstico del tiempo y elegir una lista de reproducción hasta enviar mensajes de texto y verificar tu identidad, el uso del reconocimiento de voz ya está tan arraigado en la sociedad que rara vez pensamos en ello dos veces.
Pero, ¿de dónde viene esta tecnología? ¿Cuándo comenzó a funcionar? ¿Cómo se ve el futuro? Echemos un vistazo a la historia del reconocimiento de voz, cómo se usa hoy en día y qué nos depara el futuro.
El primer sistema de reconocimiento de voz fue construido en 1952 por Bell Laboratories. Apodado "Audrey", el inteligente sistema podía reconocer el sonido de un dígito hablado (cero a nueve) con más del 90 % de precisión, pero solo cuando lo hablaba su desarrollador. Era mucho menos preciso con voces desconocidas.
IBM mostró la Shoebox en la Feria Mundial de 1962 en Seattle. El dispositivo podía entender 16 palabras habladas en inglés. Más tarde, en la década de 1960, los soviéticos crearon un algoritmo que podía reconocer 200 palabras. Estos se basaron en palabras individuales que se comparaban con patrones de voz almacenados.
Un programa financiado por el Departamento de Defensa de los Estados Unidos en la Universidad Carnegie Mellon desarrolló Harpy, que tenía un vocabulario de más de 1000 palabras. El mayor avance fue que podía reconocer no solo palabras, sino oraciones completas.
IBM estaba de vuelta a la vanguardia en la década de 1980 con una máquina de escribir activada por voz llamada Tangora. Tenía un vocabulario de 20.000 palabras y utilizaba estadísticas para predecir e identificar palabras.
A principios de los 90, Dragon Systems lanzó el primer producto de reconocimiento de voz para el consumidor, llamado Dragon Dictate. En 1997, se lanzó una actualización llamada Dragon NaturallySpeaking. Este fue el primer producto de reconocimiento de voz continuo, y podía reconocer el habla a un ritmo de 100 palabras por minuto. Esta tecnología todavía se utiliza hoy en día, de hecho, fue adquirida por Microsoft en 2021.
La tecnología de voz a texto de IA ha llegado a pasos agigantados en las últimas dos décadas. Google ha liderado el camino con su producto de búsqueda de voz, y Apple, Amazon y Microsoft también son jugadores clave.
Hay dos tipos de reconocimiento de voz: dependiente del hablante e independiente del hablante.
El software de reconocimiento de voz dependiente del hablante está capacitado para reconocer una voz específica, de manera similar al software de reconocimiento de voz.
Los nuevos usuarios tienen que "entrenar" el programa hablando con él, lo que a menudo implica leer algunas páginas de texto. De esta manera, el ordenador puede analizar la voz y aprender a reconocerla.
El reconocimiento de voz dependiente del hablante generalmente proporciona una precisión muy alta.
El software independiente del hablante está diseñado para reconocer la voz de cualquier persona, lo que significa que no hay capacitación involucrada. El software se centra en el reconocimiento de palabras en lugar de una voz específica.
Este tipo de reconocimiento de voz generalmente es menos preciso, pero es la única opción real para las aplicaciones de respuesta de voz interactiva (IVR), como las utilizadas por los centros de llamadas, ya que las empresas no pueden pedir a las personas que llaman que lean páginas de texto antes de usar sus sistemas.
Estas son algunas de las formas en que el software de reconocimiento de voz se utiliza ahora en la vida cotidiana:
Cada vez que usted dice "hey Siri", es el software de reconocimiento de voz el que hace que estos asistentes virtuales nos entiendan y nos permita utilizar nuestros dispositivos con solo hablar.
Los altavoces inteligentes como Amazon Echo y Apple HomePod también tienen asistentes virtuales integrados. 320 millones de altavoces inteligentes estaban en uso en 2020, y esto es set to double by 2024.
El reconocimiento de voz está en juego cada vez que llama a un centro de llamadas y una voz grabada le pide que indique su nombre, número de referencia o un resumen de su consulta. Esto se conoce como respuesta de voz interactiva.
Muchos sistemas de seguridad, como los utilizados por los bancos, utilizan la biometría de voz como medio de control de seguridad de un cliente.
Los [servicios de transcripción automática]{.underline}, como Transcribe, utilizan el reconocimiento de voz para convertir el habla en texto, proporcionando transcripciones en cuestión de minutos o incluso segundos.
Está previsto que el reconocimiento de voz se utilice cada vez más. Por ejemplo:
Se prevé que el tamaño del mercado mundial de reconocimiento de voz crezca desde \10.7 billones de dólares en 2020 a \27,16 billion de dólares en 2026
El número de altavoces inteligentes se duplicará (desde 320 millones) en 2024
El número de asistentes de voz digitales utilizados en dispositivos en todo el mundo también se duplicará, de 4200 millones de unidades en 2020 a 8400 millones de unidades en 2024, un número mayor que la población mundial.
Cuanto más se use, más datos de voz se recopilen y más inversión se le inyecte, más preciso será el software de reconocimiento de voz. Entenderá mejor los diferentes acentos, diferenciará a los hablantes e incluso reconocerá las emociones. También podrá aprender a entender diferentes idiomas y dialectos simultáneamente.
Nadie puede saber con certeza exactamente lo que depara el futuro, pero el software de reconocimiento de voz está en camino de mejorar, ser más preciso y más útil que nunca.
Si le pareció interesante, es posible que le interese obtener más información sobre transcripción de IA, incluyendo cómo funciona, cómo se usa hoy y qué puede esperar de ella en el futuro.
Escrito por Katie Garrett