Cómo Funciona el Reconocimiento de Voz: De las Ondas Sonoras a las Palabras
Tabla de contenido

Cómo Funciona el Reconocimiento de Voz: De las Ondas Sonoras a las Palabras

Siri no escucha palabras — mide patrones de ondas sonoras. Un niño que entiende esto también entiende por qué los asistentes de voz se confunden con acentos y por qué eso es un problema de sesgo importante.

Pídele al Asistente de Google que ponga una canción de Los Tigres del Norte. Probablemente lo hace sin problema. Ahora dile “Xochimilco” y observa. Muchos asistentes de voz tropiezan con palabras náhuatl o con acentos regionales de América Latina — no porque sean “tontos”, sino porque aprendieron de ciertos datos más que de otros.

Esa brecha — entre lo que los asistentes de voz hacen bien y dónde fallan — es una ventana a cómo funcionan. Y una vez que entiendes el mecanismo, muchas frustraciones con estos dispositivos de repente tienen un sentido completo.

Por Qué Vale la Pena Enseñar Esto

Las interfaces de voz están en todas partes. Alexa, Siri, el Asistente de Google, búsqueda por voz, texto a voz en celulares, servicio al cliente automatizado, control de voz en autos. La expectativa de que puedas hablarle a un dispositivo y ser entendido ya es una parte normal de la infancia.

Pero los niños que no entienden cómo funciona esto son más vulnerables a las brechas. Se lo toman personal cuando un dispositivo no entiende su acento. Asumen que el sistema es “tonto” en lugar de entender que refleja los datos con los que fue entrenado. Y se pierden el punto más importante: estos sistemas fueron construidos mayormente por y para ciertas poblaciones, y eso importa.

Un estudio de 2020 en los Proceedings of the National Academy of Sciences encontró que cinco sistemas comerciales principales de reconocimiento de voz (incluyendo los de Amazon, Apple, Google, IBM y Microsoft) tenían tasas de error hasta 2.5 veces más altas para hablantes de inglés afroamericano en comparación con hablantes de inglés americano estándar. Ese es un problema de sesgo arraigado en los datos de entrenamiento — y un niño que entiende cómo funciona el reconocimiento de voz está equipado para reconocer y discutir eso.

Lo Explico Como Si Tuvieras 5 Años: El Sonido Es Solo Aire que Vibra

Cuando hablas, tus cuerdas vocales vibran. Esas vibraciones empujan moléculas de aire hacia adelante y hacia atrás en ondas. Esas ondas viajan por el aire y llegan a un micrófono. El micrófono tiene una membrana delgada que vibra en respuesta a los cambios de presión del aire. Esa vibración se convierte en una señal eléctrica — un voltaje que cambia rápidamente — que se convierte en números.

Así que tu voz, para cuando llega a una computadora, es una secuencia larga de números que representan cuánto se movió la membrana del micrófono en cada pequeño fragmento de tiempo. Aproximadamente 44,000 fragmentos por segundo para calidad de audio. Eso es todo. Eso es con lo que empieza la computadora.

Sin palabras. Sin significado. Solo números.

Cómo Funciona en Realidad

Paso 1: Captura de onda. El micrófono convierte la presión sonora en una señal digital: una secuencia de números que representan la amplitud a lo largo del tiempo. A 16,000 muestras por segundo (típico para el procesamiento de voz), un segundo de habla son 16,000 números.

Paso 2: Extracción de características — el espectrograma. Las formas de onda crudas son difíciles de clasificar directamente. En cambio, el sistema convierte la onda en un espectrograma: una representación matemática de qué frecuencias están presentes en cada momento del tiempo. Piénsalo como música visual para la voz — mostrando no solo el volumen, sino qué “notas” (frecuencias) dominan.

Un formato particularmente útil son los coeficientes cepstrales en las frecuencias de Mel (MFCC) — un resumen matemático compacto de la forma espectral, diseñado para enfatizar los rangos de frecuencia más importantes para la percepción del habla humana.

Paso 3: Coincidencia de patrones con una red neuronal. El espectrograma se alimenta a una red neuronal entrenada en cientos de miles de horas de habla etiquetada. La red aprende qué patrones espectrales corresponden a qué sonidos (fonemas), qué secuencias de fonemas corresponden a palabras, y qué secuencias de palabras son gramaticalmente probables.

Los sistemas modernos como Whisper de OpenAI usan arquitecturas de transformer — el mismo tipo de arquitectura detrás de los modelos de lenguaje — entrenados de extremo a extremo en datos de habla.

Paso 4: Postprocesamiento con modelo de lenguaje. Como la acústica sola es ambigua (muchos sonidos pueden producir espectrogramas similares), la mayoría de los sistemas aplican un modelo de lenguaje para escoger la secuencia de palabras más probable dada la evidencia acústica.

Por Qué los Niños Deben Saber Esto Hoy

Entender el reconocimiento de voz importa por tres razones: práctica, educativa y ética.

Práctica: Los niños que entienden que los acentos y el ruido de fondo degradan la precisión pueden adaptar su comportamiento — hablar más claramente, usar el sistema más estratégicamente. También tienen menos probabilidad de frustrarse por fallas que ahora entienden.

Educativa: La tecnología de texto a voz está integrada en muchas herramientas de apoyo — características de dictado para estudiantes con dislexia, TDAH o dificultades motoras finas. Los papás que toman decisiones sobre apoyos merecen entender qué pueden y no pueden hacer estas herramientas.

Ética: Esta es la más importante. La brecha de precisión entre idiomas y acentos no es una inevitabilidad técnica — es una consecuencia de quién construyó los datos de entrenamiento y cuyas voces estuvieron sobre- o subrepresentadas. Un estudio de Stanford de 2021 encontró que los sistemas de reconocimiento automático de voz (ASR) transcribían el inglés afroamericano con tasas de error de palabras casi el doble que el inglés americano estándar. Un niño que entiende esto está equipado para preguntar: “¿Quién construyó esto, y cuyas voces usaron?”

Para América Latina específicamente: el español hablado en México, Colombia, Argentina o Cuba tiene diferencias significativas en pronunciación, velocidad y entonación. Los sistemas entrenados predominantemente en español “neutro” o español peninsular pueden tener peor desempeño con acentos regionales latinoamericanos.

Cómo Enseñarle Esto a Tu Hijo

Para 5 a 8 años: El Juego del Teléfono Descompuesto

Juega al teléfono descompuesto — susurra una frase a lo largo de una fila de personas y ve cómo llega distorsionada. Luego explica: “Cuando tu voz llega a Alexa, tuvo que viajar por el aire, por el micrófono, convertirse en números, y luego la computadora tiene que adivinar qué significan esos números. Como en el teléfono descompuesto, a veces el mensaje se distorsiona un poco.”

Luego experimenta: habla claro vs. habla suave con la tele de fondo. ¿Cómo cambia la precisión?

Para 9 a 12 años: El Experimento de los Acentos

Busca en YouTube “reto de acentos con asistente de voz” — hay docenas de videos donde personas con diferentes acentos regionales e internacionales prueban qué tan bien los entiende Siri o el Asistente de Google. Mira algunos juntos. Luego pregunta: “¿Por qué el asistente entiende algunos acentos mejor que otros?”

La respuesta: depende completamente de los datos de entrenamiento. Un sistema entrenado principalmente en español neutro de noticiarios tendrá mejor desempeño con ese registro que con el español chilango de Ciudad de México o el español caribeño.

Luego haz la pregunta más difícil: “¿Es eso justo? ¿Qué tendría que cambiar para arreglarlo?”

Para 13 años en adelante: Explora Whisper de OpenAI

Whisper es el sistema de reconocimiento de voz de código abierto de OpenAI, disponible gratis. Corre localmente y soporta 99 idiomas, incluyendo múltiples variantes del español. Un adolescente con experiencia en Python puede instalarlo en un comando y empezar a transcribir archivos de audio.

Más importante aún: la “tarjeta del modelo” de Whisper (la documentación que explica cómo fue construido) discute explícitamente sus limitaciones y los idiomas donde tiene peor desempeño. Leer la documentación del modelo críticamente — entender lo que el modelo no puede hacer y por qué — es una habilidad que toda persona técnicamente alfabetizada necesita.

Comparación de Precisión por Sistema e Idioma/Acento

SistemaInglés estándar (TDE)Español de México (TDE)Inglés afroamericano (TDE)Mandarín (TDE)
Google (Cloud Speech-to-Text)~5%~8%~9–15%~6%
Apple (Siri)~5%~9%~10–14%~7%
Amazon (Alexa/Transcribe)~6%~10%~12–16%~8%
OpenAI Whisper (large)~3%~5%~6–8%~4%
Microsoft Azure~5%~8%~10–13%~6%

TDE = Tasa de Error de Palabras (menor es mejor). Cifras aproximadas que varían según estudio y condiciones. Whisper consistentemente tiene mejor desempeño en lenguas y acentos subrepresentados, probablemente porque fue entrenado en un conjunto de datos multilingüe más diverso (680,000 horas de audio de internet en 99 idiomas).

Ejemplos del Día a Día de Tu Hijo

Siri y el Asistente de Google — cada comando de voz que da tu hijo pasa por todo este proceso en menos de un segundo. La precisión depende de: calidad del micrófono, ruido ambiental, qué tan claro habla, y qué tan bien su acento coincide con los datos de entrenamiento.

Texto a voz en apps de mensajería — toca el ícono del micrófono en WhatsApp. El sistema de reconocimiento de voz (generalmente en el dispositivo para privacidad) convierte el habla en texto. Nota cómo maneja el habla rápida, el murmullo, o nombres inusuales.

Subtítulos automáticos de YouTube — Google genera subtítulos automáticamente para millones de videos. La calidad varía enormemente por acento, calidad de audio y tema. Ver subtítulos automáticos con un acento marcado puede ser una demostración fascinante de dónde falla el sistema.

Dictado en la escuela — muchas herramientas educativas, incluyendo aplicaciones del SEP y plataformas de aprendizaje en línea en México, integran funciones de dictado. Los estudiantes con dislexia u otras necesidades pueden beneficiarse mucho — pero solo si el sistema reconoce bien su variante del español.

Qué Observar en 3 Meses

Mes 1: ¿Tu hijo nota cuándo los asistentes de voz fallan, y tiene alguna teoría de por qué? “Solo no funciona” vs. “No reconoce mi acento” vs. “El ruido de fondo lo confunde” — las dos últimas muestran sofisticación creciente.

Mes 2: Después del experimento de acentos, ¿tu hijo menciona el sesgo de datos de entrenamiento en algún otro contexto? Este concepto — que los sistemas de IA reflejan los datos con los que fueron entrenados, y que esos datos reflejan elecciones hechas por humanos — aplica a algoritmos de recomendación, reconocimiento facial y herramientas de contratación. Una vez que se ve el patrón, se ve en todas partes.

Mes 3: ¿Puede tu hijo explicar la diferencia entre lo que un asistente de voz “escucha” (una onda sonora) y lo que “entiende” (nada — hace coincidencia de patrones)? El insight de que la comprensión es simulada, no real, aplica a toda la IA.

Preguntas Frecuentes

¿Por qué Alexa a veces escucha cosas que no dije?

Porque siempre está escuchando su palabra de activación (“Alexa”) al comparar el audio entrante con un patrón acústico almacenado. Cualquier patrón suficientemente similar — en audio de la tele, conversaciones cercanas o ciertas frecuencias musicales — puede accidentalmente coincidir con la palabra de activación y activar el dispositivo.

¿Por qué el asistente de voz de mi hijo es menos preciso que el mío?

Las voces de los niños tienen diferentes frecuencias fundamentales, velocidades de habla y patrones de pronunciación en comparación con las voces adultas. La mayoría de los sistemas comerciales fueron entrenados predominantemente con habla adulta, por lo que la precisión baja para voces más jóvenes.

¿El asistente de voz graba todo lo que digo?

La mayoría de los dispositivos siempre están “escuchando” en un modo de bajo consumo, pero solo para la palabra de activación. Cuando se detecta la palabra de activación, comienza la grabación completa y se envía a servidores en la nube para procesamiento. Muchas empresas almacenan estas grabaciones durante un período de tiempo para mejorar sus modelos. Revisa la configuración de privacidad de tu dispositivo — la mayoría permite eliminar grabaciones de voz almacenadas.

¿Pueden los acentos latinoamericanos mejorar la precisión?

Con Whisper de OpenAI, la precisión para el español de América Latina es generalmente mejor que con otros sistemas porque fue entrenado en más diversidad lingüística. Hablar más lento y claro siempre ayuda con cualquier sistema — pero pedirles a los usuarios que adapten su habla es una solución incompleta. La solución real es construir conjuntos de datos de entrenamiento más diversos desde el principio.

¿Qué idioma habla mejor Alexa?

Inglés americano estándar — porque ahí es donde provino la mayoría de los datos de entrenamiento. Sin embargo, Amazon ha invertido significativamente en mejorar el español para el mercado latinoamericano. Whisper (OpenAI) maneja una gama mucho más amplia de idiomas y acentos con mayor precisión, por lo que es preferido para trabajo de transcripción multilingüe.

¿Qué es la tasa de error de palabras y por qué importa?

La tasa de error de palabras (TDE o WER en inglés) es el porcentaje de palabras en una transcripción que son incorrectas comparadas con las palabras reales habladas. Una TDE del 5% significa que 5 de cada 100 palabras son incorrectas — lo que suena pequeño, pero en un párrafo de 200 palabras, son 10 errores. Para transcripción de mensajes de voz, tolerable. Para dictado médico o procedimientos legales, inaceptablemente alto.


Sobre el autor Ricky Flores es el fundador de HiWave Makers e ingeniero eléctrico con más de 15 años de experiencia desarrollando tecnología de consumo en Apple, Samsung y Texas Instruments. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo saturado de tecnología. Lee más en hiwavemakers.com.


Fuentes

  1. Martin, J. E., et al. (2020). “Racial disparities in automated speech recognition.” Proceedings of the National Academy of Sciences, 117(14), pp. 7684–7689. https://doi.org/10.1073/pnas.1915768117
  2. Radford, A., et al. (2022). “Robust Speech Recognition via Large-Scale Weak Supervision.” OpenAI Technical Report. https://arxiv.org/abs/2212.04356
  3. Tatman, R. (2017). “Gender and Dialect Bias in YouTube’s Automatic Captions.” Proceedings of ACL Workshop on Ethics in NLP. https://aclanthology.org/W17-1606/
  4. Hinton, G., Deng, L., Yu, D., et al. (2012). “Deep Neural Networks for Acoustic Modeling in Speech Recognition.” IEEE Signal Processing Magazine, 29(6), pp. 82–97. https://doi.org/10.1109/MSP.2012.2205597
  5. Baevski, A., et al. (2020). “wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations.” NeurIPS 33. https://arxiv.org/abs/2006.11477
  6. National Institute of Standards and Technology (NIST). (2023). Speech Recognition Technology Evaluation Results. https://www.nist.gov/programs-projects/speech-recognition
Ricky Flores
Escrito por Ricky Flores

Fundador de HiWave Makers e ingeniero eléctrico con más de 15 años trabajando en proyectos con Apple, Samsung, Texas Instruments y otras empresas Fortune 500. Escribe sobre cómo los niños aprenden a construir, pensar y crear en un mundo impulsado por la tecnología.