Datos sobre la inteligibilidad del habla

Jul 1, 2026

speech-intelligibility-when-applying-the-voice-header

Las palabras habladas y cantadas deben ser inteligibles. Desafortunadamente, mantener la inteligibilidad puede ser un desafío técnico al grabar o amplificar la voz. En este artículo, presentamos algunos datos sobre la inteligibilidad del habla y, lo que es más importante, cómo conservarla.

Resumen ejecutivo

El lenguaje proviene de la palabra hablada. Por lo tanto, al grabar la voz, siempre se debe tener en cuenta la inteligibilidad del habla.

El aire pasa por las cuerdas vocales y produce sonido. Al controlar las cuerdas vocales, se puede variar el nivel y el tono de la voz. Al afectar las cavidades situadas por encima de las cuerdas vocales (faríngea, oral y nasal), se añade filtrado al espectro vocal.

Modificar el esfuerzo vocal altera tanto el nivel como el espectro de frecuencias del sonido de la voz. Incluso el tono de voz cambia con el esfuerzo vocal. Gritar suena diferente a hablar con un tono de voz normal.

Al grabar, observará que los picos de la señal acústica son mucho más altos que el nivel RMS o promedio. Asegúrese de que todos los picos se conserven durante la grabación.

En las lenguas no tonales, las consonantes son importantes. Las consonantes (k, p, s, t, etc.) se encuentran predominantemente en el rango de frecuencias superior a 500 Hz. Más concretamente, en el rango de frecuencias de 2 kHz a 4 kHz.

Percibimos la voz como natural y con la mayor inteligibilidad cuando nos encontramos aproximadamente a un metro de la persona que habla. Si nos situamos a un lado o detrás de ella, la naturalidad y la inteligibilidad disminuyen.

En realidad, el espectro de cambios de la voz se produce en casi cualquier otra posición que no sea cuando nos acercamos a la persona que habla con el oído o con el micrófono.

Cada posición en la cabeza o el pecho tiene su propio timbre o color de sonido. Por ejemplo, el espectro del habla grabado en el pecho de una persona normalmente carece de frecuencias en el rango importante de 2 a 4 kHz. Esto reduce la inteligibilidad del habla. Si el micrófono no compensa esta deficiencia, conviene realizar correcciones con un ecualizador.

Por lo tanto, al colocar un micrófono, tenga en cuenta estos aspectos. Elija el micrófono adecuado, diseñado para la posición en la que lo va a colocar. De lo contrario, prepárese para compensar (ecualizar) para obtener el sonido correcto.

Puedes empezar con buen pie viendo una serie de vídeos cortos que presentan y explican algunos factores importantes que influyen en la inteligibilidad de la voz. Cuando estés listo para profundizar en la teoría, consulta el artículo completo que aparece debajo de la lista de reproducción.

Experimenta ahora

https://www.youtube-nocookie.com/embed/F5pW6eQxUVo?feature=oembed

La voz como fuente de sonido acústico

Es importante comprender la voz como fuente sonora. Si bien el lenguaje puede ser algo común a varios grupos de personas, el sonido y el carácter de la voz son individuales. Al mismo tiempo, el habla, considerada una señal acústica, es el tipo de sonido con el que estamos más familiarizados.

Nivel de sonido

El nivel de habla varía, desde un susurro apenas audible hasta un grito fuerte. Es difícil asignar un valor fijo al nivel de habla, ya que este es individual. Los valores de la tabla a continuación indican el nivel promedio de habla ponderado A de un adulto.

Cabe destacar que la capacidad de comprender el habla es óptima cuando el nivel de sonido corresponde al del habla normal a una distancia de 1 metro. En otras palabras, un nivel de presión sonora de aproximadamente 55-65 dB re 20 μPa. (En este caso, «re» significa «con respecto a»; la referencia es el nivel de presión sonora más bajo que se puede oír).

Nivel de habla

Nivel de habla [dB re 20 µPa]

Distancia de escucha [m]	Normal	Aumentó	Alto	Gritar
0,25	70	76	82	88
0,5	65	71	77	83
1.0	58	64	70	76
1.5	55	61	67	73
2.0	52	58	64	70
3.0	50	56	62	68
5.0	45	51	57	63

Nivel de voz promedio en función de la distancia de escucha/grabación. Existe una diferencia de casi 20 dB entre el habla normal y los gritos.

Factor de cresta

Tenga en cuenta que cada nivel presentado en la tabla es un nivel RMS promedio y no un nivel pico. Por lo general, los picos se encuentran entre 20 y 23 dB por encima del nivel RMS. La relación entre el nivel pico y el nivel RMS se denomina factor de cresta. Este factor es un parámetro importante al grabar o reproducir una voz en un sistema electroacústico.

Tenga en cuenta también: El canto fuerte, medido a la altura de los labios, puede alcanzar niveles de 130 dB re 20 μPa RMS y niveles pico superiores a 150 dB re 20 μPa.

Voz masculina, habla normal (duración: 18 segundos). RMS promedio: -21,5 dBFS, Pico: -0,5 dBFS. Factor de cresta: 11 (21 dB). La línea roja punteada indica el nivel RMS.

El espectro del habla

El espectro del habla abarca una porción considerable del espectro completo de frecuencias audibles. En las lenguas no tonales, se puede decir que el habla se compone de sonidos vocálicos y consonánticos. Los sonidos vocálicos se generan en las cuerdas vocales y se filtran en las cavidades vocales. Un susurro carece de sonidos sonoros.

Sin embargo, las cavidades que contribuyen a la formación de las distintas vocales siguen afectando al flujo de aire. Por ello, las características de los sonidos vocálicos también se presentan en un susurro. En general, la frecuencia fundamental del tono del habla complejo —también conocida como tono o f0— se sitúa entre 100 y 120 Hz en los hombres, aunque pueden existir variaciones fuera de este rango. La f0 en las mujeres se encuentra aproximadamente una octava más alta. En los niños, la f0 ronda los 300 Hz.

Las consonantes se producen por bloqueos de aire y ruidos generados por el paso del aire a través de la garganta y la boca, especialmente la lengua y los labios. En términos de frecuencia, las consonantes se sitúan por encima de los 500 Hz.

Con una intensidad vocal normal, la energía de las vocales suele disminuir rápidamente por encima de aproximadamente 1 kHz. Sin embargo, cabe destacar que el énfasis en el espectro del habla se desplaza una o dos octavas hacia frecuencias más altas al elevar el tono de voz. Asimismo, es importante señalar que no es posible aumentar el nivel de sonido de las consonantes en la misma medida que el de las vocales. En la práctica, esto significa que la inteligibilidad del habla no aumenta al gritar, en comparación con un esfuerzo vocal normal en situaciones donde el ruido de fondo no es significativo.

Espectro vocal (1/3 de octava) dependiendo del esfuerzo .

Formantes

Si escuchas a dos personas que pronuncian la misma vocal con la misma frecuencia fundamental (f0), presumiblemente reconocerás que ambas vocales son idénticas. Sin embargo, dos voces cualesquiera no producen necesariamente el mismo espectro sonoro. Los formantes proporcionan los sonidos vocálicos percibidos. Además, los formantes aportan información que varía de un hablante a otro. Los formantes se explican por el filtrado acústico del espectro generado por las cuerdas vocales. Las vocales se crean mediante la afinación de las resonancias de las cavidades del tracto vocal.

¿Qué factores influyen en la inteligibilidad?

En lenguas tonales como el chino y el tailandés, los hablantes utilizan el tono léxico o la frecuencia fundamental para indicar el significado.

En lenguas no tonales como el inglés, el español, el japonés, etc., las palabras se distinguen por el cambio de una vocal, una consonante o ambas. Sin embargo, de estas dos, las consonantes son las más importantes.

Frecuencias importantes

Las frecuencias importantes en las lenguas no tonales (occidentales) se ilustran en el siguiente diagrama. En este caso, la banda de frecuencia alrededor de 2 kHz es la más importante en cuanto a inteligibilidad percibida. La mayoría de las consonantes se encuentran en esta banda de frecuencia.

(Referencia: NR French y JC Steinberg: Factores que rigen la inteligibilidad de los sonidos del habla. JASA vol. 19, n.º 1, 1947).

El espectro de voz se filtra mediante un filtro de paso alto o de paso bajo. Al usar un filtro de paso alto a 20 Hz (arriba a la izquierda), la voz sigue siendo 100% comprensible (ya que abarca todo el espectro). Un filtro de paso alto que elimina todo lo que está por debajo de 500 Hz también permite que la señal de voz sea comprensible. Aunque se elimina la mayor parte de la energía de la voz, la inteligibilidad solo se reduce en un 5 %. Sin embargo, aplicar una frecuencia de corte más alta provoca una disminución de la inteligibilidad.

Por el contrario, al aplicar un filtro de paso bajo, la inteligibilidad disminuye muy rápidamente. Al cortar a 1 kHz, la inteligibilidad ya es inferior al 40 %. Se puede observar que el rango de frecuencias entre 1 kHz y 4 kHz es de suma importancia para la inteligibilidad.

ruido de fondo

El ruido de fondo influye en la inteligibilidad percibida de la señal de voz. En este caso, todas las señales que no sean la propia voz pueden considerarse ruido. Así, en un auditorio o aula, el aire acondicionado y otros aparatos ruidosos pueden dificultar la comprensión del habla. La presencia de otras personas también genera ruido. En el sonido de la televisión o el cine, suele tratarse de la relación entre el volumen del diálogo y el de la música o los sonidos ambientales de fondo.

En este diagrama se representa la inteligibilidad del habla en función de la relación señal/ruido (S/N). La curva inferior muestra que el habla puede ser inteligible hasta cierto punto incluso con una relación S/N negativa, lo que significa que el ruido es 10 dB más fuerte que el nivel del habla. En cualquier caso, el nivel óptimo de inteligibilidad del habla se sitúa en torno a los 60 dB re 20 μPa.

Se han realizado numerosas investigaciones en este ámbito. En general, los resultados demuestran que:

El nivel óptimo de habla es constante cuando el nivel de ruido de fondo es inferior a 40 dB(A).
El nivel óptimo de voz parece ser aquel que mantiene una relación señal/ruido de alrededor de 15 dB(A) cuando el nivel de ruido de fondo supera los 40 dB(A).
La dificultad auditiva aumenta a medida que aumenta el nivel del habla en la condición en que la relación señal/ruido es lo suficientemente buena como para mantener la inteligibilidad casi perfecta.

Además, el rango de frecuencias de 1 a 4 kHz debe mantenerse despejado. Por ejemplo, al añadir música de fondo para una narración, un ecualizador paramétrico que atenúe la música entre 5 y 10 dB en este rango de frecuencias mejorará la inteligibilidad.

Reverberación

La reverberación se considera ruido cuando se habla de inteligibilidad del habla. Una ligera reverberación puede favorecer la comprensión del habla; sin embargo, en cuanto las consonantes se distorsionan, la inteligibilidad disminuye.

El campo sonoro

El campo sonoro que rodea a la persona que habla se ve afectado no solo por la física del tracto vocal, sino también por la cabeza y el cuerpo de la persona.

Directividad

A continuación se muestran diagramas polares de hablantes humanos en planos verticales y horizontales.

Patrones polares del hablante humano. (Referencias: Chu, WT; Warnock, AAC: Directividad detallada de los campos sonoros alrededor de los hablantes humanos).

El nivel representado es ponderado A y en cada diagrama se incluyen tanto hombres como mujeres. Todos los participantes estaban sentados. Los niveles se midieron a 1 metro de distancia. Se observa que la diferencia entre la parte frontal y posterior es de aproximadamente 7 dB. Sin embargo, esto no proporciona información sobre la dependencia de la frecuencia: las frecuencias altas se atenuaron más en la parte posterior que las frecuencias bajas.

Tenga en cuenta que, en el plano vertical, el nivel es más alto en la dirección de 330° en comparación con otras direcciones. Esto se debe principalmente a que el sonido se refleja en el pecho.

Este diagrama muestra las gráficas polares dependientes de la frecuencia desde 160 Hz hasta 8 kHz.

Se observa que la directividad aumenta a partir de aproximadamente 1 kHz. Si a esto le sumamos la importancia de las frecuencias superiores a 1 kHz, resulta evidente que se obtiene una mayor inteligibilidad al grabar desde delante de la persona en comparación con grabar desde detrás.

Hablante humano, diagramas polares a intervalos de 1/3 de octava. División de 5 dB. (Referencia: Chu, WT; Warnock, AAC: Directividad detallada de los campos sonoros alrededor de hablantes humanos).

Distancia y dirección

Dado que no todos los micrófonos se colocan a una distancia de 1 metro del hablante, resulta interesante saber qué ocurre cuando nos acercamos a la fuente de sonido.

Los siguientes diagramas muestran la desviación del espectro de voz registrado a 1 metro en la dirección indicada. Los ángulos (+45°, 0° y -45°) se encuentran en el plano vertical. Estos resultados son promedios de 10 hablantes.

Las líneas en cada uno de los tres diagramas muestran las desviaciones a 80 cm, 40 cm, 20 cm y 10 cm, respectivamente.

Si no hubiera ningún cambio en el espectro al cambiar de dirección y distancia, todas las curvas serían líneas rectas, pero la desviación aumenta a medida que nos acercamos al hablante.

El diagrama superior muestra las posiciones de medición a 45° hacia arriba del eje. La desviación es mínima. Por eso, la amplificación por encima de la cabeza proporciona un espectro de voz estable que no depende tanto de la distancia.

El diagrama inferior muestra lo que sucede cuando captamos la voz por debajo del plano axial. La influencia del sonido reflejado por el cuerpo es considerable.

Las desviaciones en el eje se sitúan en un punto intermedio entre las otras dos, lo que significa que el espectro del habla cambia con la distancia al micrófono.

(Referencia: Brixen, Eddy B.: Registro de campo cercano de la voz humana: Cambios espectrales debidos a la posición. Convención AES 104, Ámsterdam, Países Bajos. Preimpresión 4728)

Cabeza y pecho

En aplicaciones de radiodifusión y sonido en directo, el micrófono preferido suele ser un micrófono de solapa (que se lleva en el pecho) o un micrófono de diadema (que se lleva en la cabeza), ya que ofrece mayor libertad de movimiento al usuario. Es importante tener en cuenta que colocar el micrófono a tan corta distancia produce un espectro grabado diferente al espectro natural y neutro que se percibe a una distancia de escucha normal. Esta diferencia es considerable.

A continuación se muestran cinco curvas que explican qué sucede con el espectro del habla al colocar los micrófonos en el cuerpo o la cabeza. Todas las curvas se basan en mediciones y representan el promedio de 10 personas (ver referencia).

La curva superior (pecho) cuantifica la diferencia entre el espectro de la voz captada en el pecho y el espectro de la voz de la misma persona captada a 1 metro de distancia en el eje. Al colocar un micrófono en el pecho, se produce una reducción sustancial de las frecuencias en el rango crítico de 2 a 4 kHz.

La segunda curva (cuello) muestra la desviación si el micrófono se coloca aún más cerca, justo debajo de la barbilla. Esta posición es muy útil en la radiodifusión, ya que es la única forma práctica de colocar un micrófono de solapa si el periodista o el entrevistado lleva camiseta, sudadera o similar, o si lleva abrigo. Para uso en exteriores, el micrófono puede cubrirse con piel o colocarse detrás de una bufanda. En cualquier caso, se produce una reducción considerable de las frecuencias consonánticas.

La curva frontal muestra que colocar el micrófono en la frente es la posición que menos obstruye el espectro. Esta posición es ideal para el teatro y el cine, pero no para las noticias.
La curva del oído muestra una atenuación gradual de las frecuencias altas en esta posición. Puede resultar conveniente colocar el micrófono en el oído; sin embargo, se requiere compensación para mantener la inteligibilidad del habla.

Al colocar el micrófono en la mejilla (auriculares), el rango de 2 a 4 kHz ofrece mejores resultados que en la mayoría de las demás posiciones. Sin embargo, sigue siendo necesario un realce en las frecuencias más altas. Los auriculares DPA incorporan un realce integrado.

Cabe mencionar que el nivel de voz en «la comisura de la sonrisa» (en la mejilla) es aproximadamente 10 dB más alto en comparación con la posición del pecho.

En las curvas se observa una tendencia general al aumento alrededor de los 800 Hz, lo cual puede considerarse compensado. Sin embargo, la desviación más significativa es la atenuación, que reduce la inteligibilidad del habla. ¡Esto siempre debe tenerse en cuenta!

(Referencia: Brixen, Eddy B.: Degradación espectral del habla capturada por micrófonos en miniatura montados en la cabeza y el pecho de las personas. Convención AES n.º 100, Copenhague, Dinamarca. Preimpresión 4284.)

Colocando el micrófono

A partir de estas condiciones, se puede establecer un conjunto de reglas para la selección y colocación de un micrófono cuando la inteligibilidad del habla sea importante.

Micrófonos vocales de mano

Los micrófonos vocales de mano deben colocarse delante de la boca con un ángulo de ±30°.
Si se utiliza un micrófono direccional (de tipo cardioide o de cañón), debe apuntar hacia el eje (y no como un cono de helado).
Los parabrisas demasiado densos pueden reducir las frecuencias más altas. Recuerde compensar esto.

Micrófono de solapa/de pecho

El espectro del habla en la posición típica del pecho presenta una falta de frecuencias en el rango esencial de 3-4 kHz. Si se coloca un micrófono con respuesta de frecuencia plana en el pecho de una persona, el rango de 3-4 kHz debe amplificarse entre 5 y 10 dB para compensar la pérdida.

En la práctica existen dos soluciones: usar un micrófono pre-ecualizado para compensar, o recordar realizar la ecualización correcta durante el proceso de edición. Cabe destacar que ninguna mesa de mezclas ni cámara ENG compensa automáticamente este problema, ni se proporcionan controles para ello. En muchos casos, esto nunca se compensa. Por lo tanto, la inteligibilidad suele ser baja.

Micrófono de los auriculares

El nivel en el micrófono de los auriculares es aproximadamente 10 dB más alto en la mejilla en comparación con la posición en el pecho.
El espectro se ve menos afectado en comparación con la posición del pecho. Sin embargo, hasta cierto punto, hay que compensar una atenuación de alta frecuencia.
Una posición de la frente (cerca de la línea del cabello), que se usa a menudo en el cine y en las representaciones teatrales, es relativamente neutral en cuanto a la inteligibilidad del habla.

Micrófonos de atril

Los micrófonos de atril se utilizan con frecuencia a diferentes distancias. Por lo tanto, el micrófono debe ser direccional, especialmente en el rango de frecuencias superior a 1 kHz.
El micrófono debe apuntar hacia la boca de la persona que habla.
Los micrófonos montados en atriles no deben ser sensibles a las vibraciones ni a ningún ruido de manipulación.

Micrófonos de panel (para varios interlocutores)

Coloca cada micrófono lo más cerca posible de cada persona que habla.
Elija micrófonos direccionales
Cuando varias personas hablan a la vez, el micrófono de cada participante debe atenuar el sonido de los demás en al menos 10 dB.

En auge

Al utilizar el micrófono de brazo, el espectro más neutro se obtiene al colocarlo delante y encima de la cabeza.
Si el entorno lo permite, se pueden utilizar otros micrófonos además de los de cañón.

Entorno ruidoso/con reverberación

Coloca el micrófono más cerca de la fuente de sonido principal (la boca del hablante).
Utilice un micrófono con alta supresión de ruido, normalmente de tipo cardioide/supercardioide.

Suscribite a nuestros contenidos exclusivos

NEWSLETTER DE NOTICIAS

BLOG DE AUDIO PROFESIONAL