El extraño fenómeno de Internet ¿Yanny o Laurel?

0
3984

La explicación de  Benjamin Munson

¿Por qué estamos escuchando cosas diferentes? Algunos dicen que es por el tono de las ondas de sonido. Otros piensan que escuchas una cosa cuando se reproduce en estéreo y otra en mono. Si escuchas con auriculares, también puede sonar diferente

El enigma perceptual Yanny vs. Laurel ha sido ferozmente debatido. Varios lingüistas han intervenido en las redes sociales (notablemente, Suzy J. Styles y Rory Turnbull en Twitter). En Facebook, Benjamin Munson, de la Universidad de Minnesota, compartió un análisis convincente que proporcionó a un periodista inquisitivo, y accedió graciosamente a publicar una versión ampliada de su explicador aquí como publicación invitada. La producción de sonidos producidos con un tracto vocal relativamente abierto (como las vocales en “Laurel” y “Yanny”) y algunas consonantes (como “l”, “r”, “y” y “n” suena en ” Laurel “y” Yanny “) tienen infinitas frecuencias en ellos. Piense en ello como cientos de diapasones tocando a la vez. Si el diapasón de frecuencia más baja vibra a 100 ciclos por segundo, entonces las diapasones estarán en múltiplos enteros de 100 Hz: 100, 200, 300, hasta el infinito. Si el diapasón de frecuencia más baja vibra a 120 ciclos por segundo, entonces las diapasones estarán en múltiplos enteros de 120 Hz: 120, 240, 360, hasta el infinito. Podemos cambiar la frecuencia de la llamada ‘horquilla de menor frecuencia’ al cambiar la tensión en nuestras cuerdas vocales (lego: ‘cuerdas vocales’), lo que hace que vibren más despacio o más rápidamente. Escuchamos esos cambios como cambios en la frecuencia de la voz, como el tono se desliza hacia arriba cuando haces una pregunta sí o no, o el tono se desliza hacia abajo cuando haces una declaración. Pero el habla tiene muchos más componentes de frecuencia que solo ese componente de frecuencia más baja. Recuerde, infinitamente muchos diapasones. La diferencia entre una vocal “ee” y “ah” es que algunas de las frecuencias que son especialmente fuertes en “ee” son silenciosas en “ah” y viceversa. Los mismos tonos están presentes, los diapasones siempre vibran, pero el volumen de cada uno de los componentes de frecuencia (cada uno de los diapasones) cambia de vocal a vocal. Espero haber sido claro hasta ahora, porque aquí es donde se vuelve extraño.

"Frecuencias"

Entonces, las frecuencias (las “diapasones”) más ruidosas son lo que llamamos formantes. Los formantes son las franjas horizontales en la imagen de arriba, llamada espectrograma. Un espectrograma es una imagen cuasi 3D. Es como un mapa topográfico. El eje x es el tiempo, por lo que un espectrograma puede mostrar cosas que cambian con el tiempo. El eje y es la frecuencia. Hay muchas frecuencias diferentes en el habla, muchas “diapasones” diferentes en nuestra analogía, y necesitamos representar tantas de ellas como necesitemos para describir el habla. En el habla, generalmente nos enfocamos en esas frecuencias entre 0 y 10,00 Hz, pero como los humanos más jóvenes y más sanos pueden escuchar hasta 20,000 Hz, a veces mostramos 0-20,000 Hz, como en el ejemplo anterior. El sombreado muestra cuáles de las frecuencias son más fuertes. Piense en el sombreado en un mapa topográfico: el sombreado muestra dónde están las montañas. Es la tercera dimensión del mapa. Las regiones con sombreado oscuro son las de mayor amplitud (= más alto, aunque “sonoridad” y “amplitud” son sutilmente diferentes por razones que no nos preocuparán aquí). Los formantes (= las frecuencias donde hay picos de amplitud) cambian a lo largo del enunciado, a medida que pasa de “l” a la vocal “aw” a la vocal “er” a “l”. En términos generales, cada formante tiene un correlato articulatorio (o, cuanto más arriba vaya, correlaciona, plural). La frecuencia del formante de frecuencia más baja rastrea aproximadamente el movimiento de la lengua en la dimensión arriba-abajo (desde una posición alta en “ee” en “remolacha” a una posición baja en el “corto a” de “bate”). El segundo formante más bajo rastrea aproximadamente el movimiento de la lengua en la dimensión frontal-posterior (desde la posición frontal del ‘short a’ en “bat” hasta la posición posterior del ‘long a’ en “bot”). Tendemos a percibir estas diferencias independientemente de la frecuencia absoluta de los formantes. Los formantes de un niño son más altos que los adultos, porque la boca y el cuello de los niños son más pequeños que los de los adultos. Aún así, percibimos que el formante de frecuencia más baja rastrea el movimiento de la lengua hacia arriba y hacia abajo, independientemente de si es una frecuencia más baja en general (como en un adulto) o una frecuencia más alta en general (como en un niño). Piense en la forma en que suena una melodía en un saxofón alto frente a un saxofón barítono. Podemos escuchar las mismas notas y la misma melodía aunque el timbre, la “calidad del tono”, por así decirlo, es diferente debido a las diferencias de tamaño generales del instrumento. Por ejemplo, aquí está el más bajo 2000 Hz del espectrograma anterior, con los formantes superpuestos en rojo.

Ahora, de inmediato vemos que hay algo mal en esta señal. Donde debería haber un segundo formante, solo hay motas que parecen aleatorias. Una cosa sobre esta señal es que es difícil rastrear el F2. Este es quizás el primer ingrediente de por qué es tan susceptible de ser identificado de manera diferente.

Una posibilidad es que el patrón de formantes en las frecuencias más altas es simplemente “Laurel” transpuesta a frecuencias más altas, y que “Laurel” suena como “Yanny” a frecuencias más altas. Eso es plausible: nunca escuchamos ese tipo de habla de alta frecuencia, y no tenemos un gran cuerpo de estudios sobre cómo sonarían los formantes de mayor frecuencia.

¿Y tú que escuchas?

Descubre mundos fascinantes en https://www.gaia.com/jaimemaussan

LEAVE A REPLY

Escribe tu comentario
Ingresa tu nombre