El lenguaje proviene de la palabra hablada. Entonces, cuando grabe la voz, siempre debe considerar la inteligibilidad del habla.
El aire pasa por las cuerdas vocales y crea sonido. Al controlar las cuerdas vocales, el nivel y el tono de la voz pueden variar. Al afectar las cavidades por encima de las cuerdas vocales (faríngea, oral, nasal), se agrega filtrado al espectro de la voz.
Cambiar el esfuerzo vocal cambia tanto el nivel como el espectro de frecuencia del sonido de la voz. Incluso el tono de la voz cambia con el esfuerzo vocal. Gritar suena diferente a hablar con una voz casual.
Al grabar, encontrará que los picos de la señal acústica son mucho más altos que el RMS o el nivel promedio. Asegúrese de que todos los picos sobrevivan a través de la cadena de grabación.
En lenguas no tonales, las consonantes son importantes. Las consonantes (k, p, s, t, etc.) se encuentran predominantemente en el rango de frecuencia por encima de 500 Hz. Más específicamente, en el rango de frecuencia de 2 kHz-4 kHz.
Percibimos la voz como natural y con la más alta inteligibilidad cuando estamos aproximadamente a 1 metro frente a la persona que habla. Pararse a un lado o detrás de la persona reduce la naturalidad y la inteligibilidad.
En realidad, la voz tiene posibilidades de espectro en casi cualquier otra posición que no sea cuando nos acercamos a la persona que habla con nuestro oído o micrófono.
Cada posición en la cabeza o el cofre tiene su propio color de sonido, o timbre. Por ejemplo, el espectro de discurso grabado en el pecho de una persona normalmente carece de frecuencias en el rango importante de 2-4 kHz. Esto da como resultado una menor inteligibilidad del habla. Si el micrófono no compensa esto, debe hacer correcciones con un ecualizador.
Entonces, al colocar un micrófono, tenga en cuenta estos problemas. Esté preparado para elegir el micrófono adecuado diseñado para usar en la posición en la que lo coloca. De lo contrario, prepárese para compensar (ecualizar) para obtener el sonido correcto.
Puede comenzar rápidamente viendo una serie de videos cortos para presentar y explicar algunos factores importantes que afectan la inteligibilidad de la voz. Cuando esté listo para una inmersión más profunda en la teoría, debe consultar el artículo completo debajo de la lista de reproducción.
1. La voz como fuente de sonido acústico.
La voz como fuente de sonido es importante de entender. Si bien el lenguaje puede ser algo que los grupos de personas tienen en común, el sonido y el carácter de la voz son individuales de persona a persona. Al mismo tiempo, el habla, considerada como una señal acústica, es el tipo de sonido con el que estamos más familiarizados.
Nivel de sonido
Los esfuerzos vocales varían; de un susurro apagado a gritos fuertes. Es difícil asignar un número fijo al nivel del habla, ya que esto es individual de persona a persona. Los valores en la tabla a continuación indican el nivel de voz promedio ponderado A del habla de un adulto.
Vale la pena señalar que la capacidad de entender el habla es óptima cuando el nivel del habla corresponde al nivel del habla normal a una distancia de 1 metro. En otras palabras, un nivel de presión acústica de aproximadamente 55-65 dB re 20 μPa. (En este caso, «re» significa «con referencia a»; la referencia es el nivel de presión de sonido más débil que es audible).
Nivel de voz
Factor de cresta
Tenga en cuenta que cada nivel presentado en la tabla es un nivel RMS promedio y no un nivel pico. Por lo general, los picos son 20-23 dB por encima del nivel RMS. La relación entre el nivel máximo y el nivel RMS se llama factor de cresta. Este factor es un parámetro importante cuando una voz se va a grabar o reproducir en un sistema electroacústico.
También tenga en cuenta: el canto fuerte, medido en los labios, puede alcanzar niveles de 130 dB re 20 μPa RMS y niveles máximos por encima de 150 dB re 20 μPa.
El espectro del habla
El espectro del habla cubre una porción bastante amplia del espectro de frecuencia audible completo. En los idiomas no tonales, se puede decir que el habla consiste en sonidos de vocales y consonantes. Los sonidos de las vocales son generados por las cuerdas vocales y filtradas por las cavidades vocales. Un susurro es sin sonidos sonoros.
Sin embargo, las cavidades que contribuyen a la formación de las diferentes vocales aún afectan el flujo de aire que pasa. Es por eso que las características de los sonidos vocálicos también ocurren en un susurro. En general, la frecuencia fundamental del tono de voz complejo, también conocido como tono o f0, se encuentra en el rango de 100-120 Hz para los hombres, pero pueden ocurrir variaciones fuera de este rango. La f0 para las mujeres se encuentra aproximadamente una octava más alta. Para los niños, f0 es de alrededor de 300 Hz.
Las consonantes son creadas por bloqueos de aire y sonidos de ruido formados por el paso del aire a través de la garganta y la boca, particularmente la lengua y los labios. En términos de frecuencia, las consonantes se encuentran por encima de 500 Hz.
A una intensidad vocal normal, la energía de las vocales generalmente disminuye rápidamente por encima de aproximadamente 1 kHz. Sin embargo, tenga en cuenta que el énfasis en el espectro del habla cambia de una a dos octavas hacia frecuencias más altas cuando se eleva la voz. Además, tenga en cuenta que no es posible aumentar el nivel de sonido de las consonantes en la misma medida que las vocales. En la práctica, esto significa que la inteligibilidad del habla no aumenta con los gritos, en comparación con la aplicación del esfuerzo vocal normal en situaciones donde el ruido de fondo no es significativo.
Formantes
Si escuchas a dos personas que hablan o cantan la misma vocal en el mismo tono (f0), las vocales son presumiblemente reconocibles como idénticas en ambos casos. Sin embargo, cualesquiera dos voces no necesariamente producen exactamente el mismo espectro. Los formantes proporcionan los sonidos vocálicos percibidos. Además, los formantes proporcionan información diferente de un hablante a otro. Los formantes se explican por el filtrado acústico del espectro generado por las cuerdas vocales. Las vocales se crean mediante la «sintonización» de las resonancias de las cavidades en el tracto vocal.
2. ¿Qué afecta la inteligibilidad?
En idiomas de tono como el chino y el tailandés, los hablantes usan el tono léxico o la frecuencia fundamental para indicar el significado.
En idiomas no tonales como inglés, español, japonés, etc., las palabras se distinguen cambiando una vocal, una consonante o ambas. Sin embargo, de estos dos, las consonantes son las más importantes.
Frecuencias importantes
El siguiente diagrama ilustra las frecuencias importantes en idiomas no tonales (occidentales). Aquí, la banda de frecuencia alrededor de 2 kHz es el rango de frecuencia más importante con respecto a la inteligibilidad percibida. La mayoría de las consonantes se encuentran en esta banda de frecuencia.
Un espectro de voz es de paso alto o de paso bajo filtrado. El uso de un filtro HP a 20 Hz (arriba a la izquierda) deja la voz 100% comprensible. (Esto se debe a que el espectro completo del habla está ahí). Un filtro HP que corta todo por debajo de 500 Hz todavía deja la señal del habla comprensible. Aunque la mayor parte de la energía del habla se corta, la inteligibilidad solo se reduce en un 5%. Sin embargo, la aplicación de un límite superior hace que la inteligibilidad disminuya.
A la inversa, la aplicación de un filtro LP hace que la inteligibilidad disminuya muy rápidamente. Al cortar a 1 kHz, la inteligibilidad ya es inferior al 40%. Se puede ver que el rango de frecuencia entre 1 kHz y 4 kHz es de gran importancia para la inteligibilidad.
Ruido de fondo
El ruido de fondo influye en la inteligibilidad percibida de la señal de voz. En este caso, todas las señales que no sean el discurso en sí mismo pueden considerarse ruido. Entonces, en un auditorio o aula, el aire acondicionado y otras instalaciones ruidosas pueden hacer que el habla sea menos inteligible. Además, la presencia de otras personas genera ruido. En la televisión o el sonido de una película, a menudo se trata de la relación entre el nivel del diálogo y el nivel de los sonidos de la música de fondo / atmósfera.
En este diagrama, la inteligibilidad del habla se representa frente a la relación señal / ruido (S / N). La curva inferior muestra que el habla aún puede ser inteligible hasta cierto punto, incluso si la S / N es negativa, lo que significa que el ruido es 10 dB más alto que el nivel del habla. Sin embargo, un nivel de voz percibido de alrededor de 60 dB re 20 μPa es óptimo.
Se ha llevado a cabo mucha investigación en esta área. En general, los resultados demuestran que:
- El nivel de voz óptimo es constante cuando el nivel de ruido de fondo es inferior a 40 dB (A)
- El nivel de voz óptimo parece ser el nivel que mantiene alrededor de 15 dB (A) de relación S / N cuando el nivel de ruido de fondo es superior a 40 dB (A)
- La dificultad para escuchar aumenta a medida que aumenta el nivel del habla en la condición en que la relación S / N es lo suficientemente buena como para mantener la inteligibilidad casi perfecta
Además, el rango de frecuencia de 1-4 kHz debe «mantenerse libre». Cuando, por ejemplo, agregue música como fondo para la narración, un ecualizador paramétrico que corte la música 5-10 dB en este rango de frecuencia mejorará la inteligibilidad.
Reverberación
La reverberación se considera ruido cuando se habla de inteligibilidad del habla. Un poco de reverberación puede apoyar el discurso, sin embargo, tan pronto como se difuminan las consonantes, la inteligibilidad disminuye.
3. El campo sonoro
El campo de sonido alrededor de la persona que habla se ve afectado no solo por la física del tracto vocal sino también por la cabeza y el cuerpo de la persona.
Directividad
A continuación se muestran diagramas polares de hablantes humanos en planos verticales y horizontales.
El nivel trazado está ponderado en A y tanto los hombres como las mujeres se representan en cada diagrama. Todos los conversadores estaban sentados. Los niveles se midieron a 1 metro. Se puede ver que la diferencia entre el frente y la parte posterior es de aproximadamente 7 dB. Sin embargo, esto no proporciona ninguna información sobre la dependencia de la frecuencia: las frecuencias altas se atenuaron más en la parte posterior que las frecuencias más bajas.
Tenga en cuenta que en el plano vertical, el nivel es más alto en la dirección de 330 ° en comparación con otras direcciones. Esto se debe principalmente a que el sonido se refleja en el cofre.
Se puede ver que la directividad aumenta desde aproximadamente 1 kHz y más. Combinando este hecho con la importancia de las frecuencias superiores a 1 kHz, es obvio que se obtiene una mayor inteligibilidad cuando se graba delante de la persona en lugar de detrás de ella.
Hablador humano, diagramas polares intervalos de 1/3 de octava. División 5 dB. (Ref .: Chu, W.T .; Warnock, A.A.C .: Directividad detallada de los campos de sonido alrededor de los hablantes humanos).
Distancia y dirección
Como no todos los micrófonos se colocan a una distancia de 1 metro del interlocutor, es interesante saber qué sucede cuando nos acercamos a la fuente de sonido.
Los siguientes diagramas muestran la desviación del espectro de voz registrado a 1 metro en la dirección dada. Los ángulos (+45 grados, 0 grados y -45 grados) están en el plano vertical. Estos resultados son promedios de 10 conversadores.
Las líneas en cada uno de los tres diagramas muestran las desviaciones a 80 cm, 40 cm, 20 cm y 10 cm, respectivamente.
Si no hubo cambios en el espectro al cambiar la dirección y la distancia, todas las curvas serían líneas rectas, pero la desviación aumenta a medida que nos acercamos al hablador.
El diagrama superior muestra las posiciones de medición 45 ° hacia arriba desde el eje. La desviación de aquí es sutil. Esta es la razón por la cual la sobrecarga en auge proporciona un espectro de voz estable que no depende tanto de la distancia.
El diagrama inferior muestra lo que sucede cuando captamos la voz debajo del plano en el eje. La influencia del sonido reflejado en el cuerpo es sustancial.
Las desviaciones en el eje están algo entre las otras dos, lo que significa que el espectro del habla cambia con la distancia al micrófono.
Cabeza y pecho
En las aplicaciones de transmisión y sonido en vivo, el micrófono preferido es a menudo un micrófono de solapa (en el pecho) o un micrófono con auriculares (en la cabeza), lo que permite una mayor libertad para el usuario. Uno debe ser consciente del hecho de que colocar el micrófono a esta corta distancia da como resultado un espectro grabado que es diferente del espectro natural y neutro percibido a una distancia de escucha normal. Esta diferencia está lejos de ser insignificante.
La curva superior cuantifica la forma en que el espectro del habla recogido en el pecho difiere del espectro del discurso de la misma persona recogido a 1 metro. (Todas las curvas se basan en mediciones, un promedio de 10 personas).
A partir de las curvas, se puede ver que existe una tendencia general de un aumento de alrededor de 800 Hz que debe considerarse compensado. Sin embargo, la desviación más importante es la atenuación que causa una menor inteligibilidad del habla.
Cabe mencionar que el nivel del habla en «la esquina de su sonrisa» es aproximadamente 10 dB más alto en comparación con una posición en el pecho.
4. Colocando el micrófono
A partir de estas condiciones, se puede establecer un conjunto de reglas para la selección y colocación de un micrófono siempre que la inteligibilidad del habla sea importante.
- Micrófonos de mano vocales
Los micrófonos de mano vocales deben colocarse frente a la boca dentro de un ángulo de ± 30 °
Si usa un micrófono directivo (tipo cardioide o escopeta), debe abordarse en el eje (y no como un cono de helado)
Los parabrisas demasiado densos pueden reducir las frecuencias más altas. Recuerde compensar esto - Micrófono Lavalier / Pecho
El espectro del habla en la posición típica del tórax tiene una falta de frecuencias en el rango esencial de 3-4 kHz. Si se coloca un micrófono con una respuesta de frecuencia plana en el pecho de una persona, el rango de 3-4 kHz debe aumentarse alrededor de 5-10 dB solo para compensar la pérdida
En la práctica, hay dos soluciones: usar un micrófono preequalizado para compensar, o recuerde hacer la ecualización correcta en el proceso de edición. Tenga en cuenta que ningún mezclador o cámara ENG compensa automáticamente esto y no se proporcionan controles para hacerlo. En muchos casos, esto nunca se compensa. Por lo tanto, la inteligibilidad es a menudo baja - Micrófono de auriculares
El nivel en el micrófono del auricular es aproximadamente 10 dB más alto en la mejilla en comparación con la posición del pecho
El espectro se ve menos afectado en comparación con la posición del tórax. Sin embargo, hasta cierto punto, una bajada de alta frecuencia tiene que ser compensada por
Una posición de la frente (cerca de la línea del cabello), que a menudo se usa en películas y presentaciones escénicas, es relativamente neutral con respecto a la inteligibilidad del habla - Micrófonos de podio
Los micrófonos de podio a menudo se usan a varias distancias. Por lo tanto, el micrófono debe ser directivo, especialmente en el rango de frecuencia superior a 1 kHz
El micrófono debe apuntar a la boca del hablador.
Los micrófonos montados en podios no deben ser sensibles a las vibraciones ni a ningún ruido de manejo. - Micrófonos de panel (parlantes múltiples)
Coloque cada micrófono lo más cerca posible de cada hablante.
Elija micrófonos directivos
Cuando más de una persona está hablando a la vez, el micrófono de cada hablante debe atenuar el sonido de otros habladores en al menos 10 dB.
En auge
Cuando está en auge, se obtiene el espectro más neutral al colocar el micrófono delante y encima de la cabeza
Si los alrededores lo permiten, se pueden usar otros micrófonos que no sean pistolas de tiro
Entorno ruidoso / reverberante
Coloque el micrófono más cerca de la fuente de sonido principal (boca del hablante)
Use un micrófono con supresión de ruido alto, generalmente de tipo cardioide / supercardioide
Fuente: DPA website > https://www.dpamicrophones.com/mic-university/facts-about-speech-intelligibility