Transcribe

La historia del reconocimiento de voz

30 July 2025

La historia del reconocimiento de voz

El software de reconocimiento de voz permite a los teléfonos y ordenadores comprender las expresiones humanas, ya sea una pregunta, un comando o una exclamación general. Y mientras que hace unas décadas esto habría estado en los reinos de la ciencia ficción, hoy en día es una parte firmemente establecida de la vida cotidiana.

Desde revisar el pronóstico del tiempo y elegir una lista de reproducción hasta enviar mensajes de texto y verificar tu identidad, el uso del reconocimiento de voz ya está tan arraigado en la sociedad que rara vez pensamos en ello dos veces.

Pero, ¿de dónde viene esta tecnología? ¿Cuándo comenzó a funcionar? ¿Cómo se ve el futuro? Echemos un vistazo a la historia del reconocimiento de voz, cómo se usa hoy en día y qué nos depara el futuro.

Breve historia del reconocimiento de voz: línea de tiempo

Años cincuenta

El primer sistema de reconocimiento de voz fue construido en 1952 por Bell Laboratories. Apodado "Audrey", el inteligente sistema podía reconocer el sonido de un dígito hablado (cero a nueve) con más del 90 % de precisión, pero solo cuando lo hablaba su desarrollador. Era mucho menos preciso con voces desconocidas.

Años 60

IBM mostró la Shoebox en la Feria Mundial de 1962 en Seattle. El dispositivo podía entender 16 palabras habladas en inglés. Más tarde, en la década de 1960, los soviéticos crearon un algoritmo que podía reconocer 200 palabras. Estos se basaron en palabras individuales que se comparaban con patrones de voz almacenados.

Los años setenta

Un programa financiado por el Departamento de Defensa de los Estados Unidos en la Universidad Carnegie Mellon desarrolló Harpy, que tenía un vocabulario de más de 1000 palabras. El mayor avance fue que podía reconocer no solo palabras, sino oraciones completas.

Años ochenta

IBM estaba de vuelta a la vanguardia en la década de 1980 con una máquina de escribir activada por voz llamada Tangora. Tenía un vocabulario de 20.000 palabras y utilizaba estadísticas para predecir e identificar palabras.

Los años noventa.

A principios de los 90, Dragon Systems lanzó el primer producto de reconocimiento de voz para el consumidor, llamado Dragon Dictate. En 1997, se lanzó una actualización llamada Dragon NaturallySpeaking. Este fue el primer producto de reconocimiento de voz continuo, y podía reconocer el habla a un ritmo de 100 palabras por minuto. Esta tecnología todavía se utiliza hoy en día, de hecho, fue adquirida por Microsoft en 2021.

A partir del año 2000

La tecnología de voz a texto de IA ha llegado a pasos agigantados en las últimas dos décadas. Google ha liderado el camino con su producto de búsqueda de voz, y Apple, Amazon y Microsoft también son jugadores clave.

¿Cuáles son los dos tipos de reconocimiento de voz?

Hay dos tipos de reconocimiento de voz: dependiente del hablante e independiente del hablante.

Dependiente del hablante

El software de reconocimiento de voz dependiente del hablante está capacitado para reconocer una voz específica, de manera similar al software de reconocimiento de voz.

Los nuevos usuarios tienen que "entrenar" el programa hablando con él, lo que a menudo implica leer algunas páginas de texto. De esta manera, el ordenador puede analizar la voz y aprender a reconocerla.

El reconocimiento de voz dependiente del hablante generalmente proporciona una precisión muy alta.

independiente del hablante

El software independiente del hablante está diseñado para reconocer la voz de cualquier persona, lo que significa que no hay capacitación involucrada. El software se centra en el reconocimiento de palabras en lugar de una voz específica.

Este tipo de reconocimiento de voz generalmente es menos preciso, pero es la única opción real para las aplicaciones de respuesta de voz interactiva (IVR), como las utilizadas por los centros de llamadas, ya que las empresas no pueden pedir a las personas que llaman que lean páginas de texto antes de usar sus sistemas.

¿Cómo se usa hoy el reconocimiento de voz?

Estas son algunas de las formas en que el software de reconocimiento de voz se utiliza ahora en la vida cotidiana:

Smartphones

Cada vez que usted dice "hey Siri", es el software de reconocimiento de voz el que hace que estos asistentes virtuales nos entiendan y nos permita utilizar nuestros dispositivos con solo hablar.

Altavoces inteligentes

Los altavoces inteligentes como Amazon Echo y Apple HomePod también tienen asistentes virtuales integrados. 320 millones de altavoces inteligentes estaban en uso en 2020, y esto es set to double by 2024.

Centros de llamadas

El reconocimiento de voz está en juego cada vez que llama a un centro de llamadas y una voz grabada le pide que indique su nombre, número de referencia o un resumen de su consulta. Esto se conoce como respuesta de voz interactiva.

Sistemas de seguridad

Muchos sistemas de seguridad, como los utilizados por los bancos, utilizan la biometría de voz como medio de control de seguridad de un cliente.

Software de transcripción

Los servicios de transcripción automática, como Transcribe, utilizan el reconocimiento de voz para convertir el habla en texto, proporcionando transcripciones en cuestión de minutos o incluso segundos.

El futuro del reconocimiento de voz

Está previsto que el reconocimiento de voz se utilice cada vez más. Por ejemplo:

Se prevé que el tamaño del mercado mundial de reconocimiento de voz crezca desde \10.7 billones de dólares en 2020 a \27,16 billion de dólares en 2026
El número de altavoces inteligentes se duplicará (desde 320 millones) en 2024
El número de asistentes de voz digitales utilizados en dispositivos en todo el mundo también se duplicará, de 4200 millones de unidades en 2020 a 8400 millones de unidades en 2024, un número mayor que la población mundial.

Cuanto más se use, más datos de voz se recopilen y más inversión se le inyecte, más preciso será el software de reconocimiento de voz. Entenderá mejor los diferentes acentos, diferenciará a los hablantes e incluso reconocerá las emociones. También podrá aprender a entender diferentes idiomas y dialectos simultáneamente.

Nadie puede saber con certeza exactamente lo que depara el futuro, pero el software de reconocimiento de voz está en camino de mejorar, ser más preciso y más útil que nunca.

Si le pareció interesante, es posible que le interese obtener más información sobre transcripción de IA, incluyendo cómo funciona, cómo se usa hoy y qué puede esperar de ella en el futuro.

Escrito por Katie Garrett

¡Gracias por suscribirte a nuestro boletín!

La historia del reconocimiento de voz

La historia del reconocimiento de voz

Breve historia del reconocimiento de voz: línea de tiempo

Años cincuenta

Años 60

Los años setenta

Años ochenta

Los años noventa.

A partir del año 2000

¿Cuáles son los dos tipos de reconocimiento de voz?

¿Cómo se usa hoy el reconocimiento de voz?

El futuro del reconocimiento de voz

Suscribirse a las noticias