Timbre vocálico y esfuerzo de las cuerdas vocales

ESTUDIOS FILOLÓGICOS, N° 37, 2002, pp. 65-75
DOI: 10.4067/S0071-17132002003700004

Timbre vocálico y esfuerzo de las cuerdas vocales^*

Vocal tone and effort of the vocal chords

Hernán León Valdés, Humberto Valdivieso

* Este trabajo presenta los resultados más importantes del Proyecto de Investigación N 99.062.033-1.0., financiado por la Dirección de Investigación de la Universidad de Concepción. Este proyecto estuvo coordinado con uno similar que Luis Romero, de la Escuela de Fonoaudiología (Facultad de Medicina, Universidad de Chile) realizó en Santiago.

En una muestra de 71 sujetos, profesores de enseñanza media, se observaron diez índices de variación del shimmer y el jitter. Los resultados obtenidos muestran que las vocales cerradas /i/ y /u/ presentan una mayor perturbación de la regularidad y estabilidad de la frecuencia y de la amplitud del F0. Es válido suponer que esta perturbación del sonido esté relacionada con el mayor esfuerzo que deben realizar las cuerdas vocales para pronunciar /i/ y /u/. Desde el punto de vista lingüístico, este hecho tiene importancia tanto en el plano teórico como en el de las aplicaciones, especialmente en la enseñanza de lenguas y en fonética clínica.

The variation of ten indicators of shimmer and jitter was observed in a sample of 71 subjects, all teachers of secondary education. The results show that the high vowels /i/ and /u/ present a higher F0 frequency and amplitude disturbance. It may be assumed that this is related to the greater effort to which the vocal chords are subjected when articulating /i/ and /u/. From a linguistic point of view, this fact is important both in the theoretical as well as applied aspects, particularly in language teaching and clinical phonetics.

1. INTRODUCION

Cada uno de los fonemas de una lengua es realizado por una amplia variedad de sonidos. Cabe preguntarse si estas clases de sonidos son o no equivalentes en cuanto al esfuerzo que deben realizar los órganos fonoarticulatorios para su producción. En el caso de existir diferencias, ellas seguramente guardarían relación con el mayor o menor grado de perceptibilidad que los diferentes tipos de sonidos presentan.

La respuesta a esta interrogante tiene importancia en el campo de las aplicaciones y en el ámbito teórico (Hyman 1981: 16). Es obvio que en la enseñanza de lenguas extranjeras y en el estudio de la adquisición de la lengua materna hay que tener en cuenta que aquellos sonidos que demandan menor esfuerzo se aprenden y se adquieren antes que los que presentan más dificultad. También en el área clínica es básico conocer la escala de esfuerzo en que se ubican los sonidos del habla. En el plano teórico, la mayor o menor dificultad con que se producen los sonidos puede tener relación con la evolución de los sonidos de las lenguas, así como con la mayor o menor cantidad de lenguas en que estos aparecen.

Al considerar el conjunto de unidades de un sistema fonológico, tradicionalmente se ha constatado que las vocales son autosuficientes, en el sentido de ser sonidos que pueden constituir sílaba, y que normalmente las consonantes son articulaciones que requieren la presencia de una vocal. En el habla, las vocales son los sonidos fundamentales, porque constituyen el soporte de la prosodia.

Si nos circunscribimos a las vocales desde el punto de vista articulatorio, lo fundamental es el trabajo que desempeñan las cuerdas o pliegues vocales. Las cavidades supraglóticas sólo actúan como resonadores del sonido glotal. En el proceso de fonación, tanto el trabajo de las cuerdas vocales, la generación del sonido, como la participación de las cavidades supraglóticas se sustentan en la energía aportada por el fuelle respiratorio.

El sistema vocálico del español, que es óptimo desde el punto de vista perceptual y articulatorio, ha sido abordado tradicionalmente considerando sus grados de abertura y localización, y en función de estos puntos de vista ha sido clasificado y organizado. Según estos criterios, este sistema de cinco unidades adopta una forma triangular cuyos puntos extremos son /i/, /a/ y /u/. Para la producción de los sonidos que realizan estos fonemas, los órganos fonoarticuladores adoptan en cada caso disposiciones que determinan diferentes configuraciones en el pabellón faringobucal.

El aparato fonoarticulador se caracteriza por mostrar una estrecha interacción entre la actividad de sus distintos componentes fonatorios y articulatorios. Desde el punto de vista fonatorio, la corriente espiratoria y la fuente glótica generan una onda sonora que avanza por el pabellón faringobucal produciendo diferentes fenómenos acústicos, entre los cuales destacarán la resonancia y la aparición de diversas fuentes de generación de ruido, cuyo producto final será la fonoarticulación. Es así como la fuente glótica trabaja para producir un sonido que deberá recorrer las diferentes cavidades supraglóticas, cavidades que presentarán distintos grados de facilitación o de obstaculización al paso de las ondas sonoras durante la producción de la vocal dependiendo de la longitud y constricciones que adopte el pabellón faringobucal en cada vocal. En el caso de vocales con menor grado de abertura, tales como /i/ o /u/, se dificulta la propagación del sonido, debiendo el sistema fonatorio recurrir a un mayor esfuerzo de la fuente glotal para vencer esta resistencia. En el caso de vocales con mayor grado de abertura, como /a/, encontramos la máxima facilitación en la propagación del sonido con menos esfuerzo por parte de la glotis. Desde un punto de vista fisiológico, varía también el trabajo de las cuerdas vocales según el timbre del sonido vocálico, ya que "Cuando se eleva la lengua, la laringe tiende a subir y los músculos laríngeos se ponen en tensión. De este modo, aumenta la tensión de las cuerdas vocales y se origina un aumento en el número de sus vibraciones" (Quilis 1988: 357).

A pesar de la importancia que tiene la relación entre el timbre vocálico y el esfuerzo que realizan las cuerdas vocales, no se han hecho estudios de fonética para observar y medir de manera objetiva el esfuerzo fisiológico que se requiere para los diferentes timbres vocálicos. Seguramente esta carencia se debe a la complejidad del fenómeno y, sobre todo, al carácter altamente invasivo de los procedimientos e instrumental que hay que usar para efectuar una observación efectiva. Sin embargo, esta dificultad desaparece si se efectúa una observación indirecta del fenómeno por medio de procedimientos confiables, pero no invasivos, como son los que se usan en fonética acústica, esto es, observando los sonidos producidos y no los órganos que los producen. Esta observación indirecta es válida, porque existe una correspondencia total entre la regularidad y la intensidad de los pulsos glotales (hecho fisiológico) y la regularidad y la amplitud de los ciclos del F0 (hecho acústico). El esfuerzo a que son sometidas las cuerdas vocales puede ser observado indirectamente por las características del sonido que ellas producen. En la medida en que aumenta el esfuerzo a que son sometidas las cuerdas vocales, su funcionamiento se perturba y se alteran la frecuencia y la amplitud de los sonidos producidos.

En este sentido, el jitter y el shimmer medidos de diferente manera proporcionan los índices fonético-acústicos que manifiestan mejor el esfuerzo a que son sometidas las cuerdas vocales para producir los sonidos vocálicos de diferente timbre.

Jitter es un término que se utiliza en los estudios del habla. Fisiológicamente corresponde a la alteración de la regularidad de la duración de los pulsos glóticos, y acústicamente se manifiesta como una inestabilidad de la frecuencia fundamental (F0). El shimmer dice relación con los cambios de intensidad de los pulsos glóticos, y se manifiesta acústicamente como una perturbación de la amplitud del F0.

A continuación se expondrán tanto los procedimientos usados como los resultados obtenidos al observar la variación de los parámetros mencionados en profesionales de la voz (profesores de educación media) al producir las vocales extremas: /a/, /i/, /u/.

2. PROCEDIMIENTOS

Se seleccionó una muestra aleatoria de 100 sujetos, hombres y mujeres. Todos profesores de educación media de colegios y liceos de Santiago. La muestra incluía sólo profesores en ejercicio. La experiencia profesional de los sujetos oscilaba entre 1 y 15 años de trabajo en el aula.

Las grabaciones se efectuaron en Santiago según las pautas acordadas por los investigadores de ambos equipos. Se usaron magnetófonos portátiles convencionales provistos de entradas para micrófono unidireccional.

Cada sujeto leyó en voz alta un texto breve y luego se le pidió que, de la manera más natural posible, tosiera por una sola vez y que prolongara el sonido de la tos articulando la vocal /a/. A continuación, se le pedía emitir una /i/ y finalmente una /u/. Cada vocal se emitía tres veces. Se ha establecido que proceder de este modo permite que los sujetos produzcan emisiones coincidentes con su tono óptimo (Grez et al. 1996).

De los 100 sujetos hubo que descartar a 10 por problemas de grabación (poca intensidad, demasiado ruido, interferencias, etc.). Además, quedaron excluidos de nuestro estudio 19 sujetos que en la evaluación fonoaudiológica o en el examen otorrinolaringológico presentaron alteraciones¹. La muestra definitiva quedó constituida por 71 sujetos.

El análisis acústico de las vocales grabadas se efectuó con el CSL 4300B utilizando el MDVP (Multi Dimensional Voice Program), ambos de Kay Elemetrics^TM. El programa de análisis fue calibrado para las voces masculinas y luego para las voces femeninas. Se midieron cinco índices de estabilidad de la frecuencia del F0 y cuatro índices de estabilidad de la amplitud. A continuación, se entrega una información muy somera de cada uno de ellos.

El jitter absoluto (Jita) corresponde a una evaluación de la variabilidad período a período de los ciclos tonales en la muestra de voz analizada. Se trata de una medición absoluta de muy corto alcance que se expresa en millonésimas de segundo.
El jitter porcentual (Jitt) es una evaluación relativa de la variabilidad de muy corto alcance de los ciclos tonales de la muestra analizada.
La perturbación promedio relativa (RAP) da una evaluación de la variabilidad de corto alcance del ciclo tonal de la muestra con un factor de nivelación de tres períodos.
El cuociente de perturbación del período tonal (PPQ) es una evaluación de la variabilidad del ciclo tonal de la muestra con un factor de nivelación de cinco períodos.
El cuociente de perturbación del período tonal nivelado (sPPQ) entrega una evaluación de la variabilidad de corto y largo alcance de los períodos tonales de la muestra. Se mantuvo el factor de nivelación que el MDVP trae por defecto y que es de 55 ciclos.
El shimmer (ShdB) corresponde a una evaluación de la variabilidad a muy corto alcance de la amplitud, cima a cima, de la muestra de voz. Se trata de una medición absoluta en términos de decibeles (dB).
El shimmer porcentual (Shim) da una evaluación de la variabilidad de la amplitud, cima a cima, de la muestra de voz. Representa, en términos relativos, la variabilidad a muy corto alcance de la amplitud.
El cuociente de variación de la amplitud (APQ) da una evaluación de la variabilidad de la amplitud de la muestra de voz con un factor de nivelación de 11 períodos.
El cuociente de perturbación de la amplitud nivelada (sAPQ) entrega una evaluación de corto o largo alcance de la variabilidad de la amplitud de la muestra de voz. Tal como en el caso del jitter, se mantuvo el factor de nivelación que el MDVP tiene por defecto y que es de 55 ciclos.

Para estos nueve índices existe un umbral de normalidad que se ha determinado a partir de una base de datos de 160 sujetos analizados por los creadores del MDVP. Algunos de estos índices han sido más utilizados que otros por los investigadores. Tanto el sPPQ como el sAPQ no han sido reportados extensamente en la literatura de la especialidad. Sin embargo, la fina línea que separa los valores normales de los anormales no nos parece todavía absolutamente confiable sino sólo útil como punto de referencia. Por esta razón hemos preferido distinguir tres zonas:

Zona de normalidad que se aproxima hasta un 5% del valor de la línea de normalidad propuesta.
Zona de riesgo que se extiende sobre un 5% y bajo un 5% de la línea de normalidad establecida.
Zona de anormalidad que sólo empieza después del 5% de la línea de normalidad.

A modo de ejemplo, se presentan en el gráfico de la figura 1 las operaciones que se realizaron a partir del umbral de normalidad establecido para el Jita.

Figura 1
Jitter absoluto, umbral vs. zonas de normalidad

A la primera zona se le asignó un valor "0", a la segunda un valor "1" y a la tercera un valor "2". De este modo, cada índice puede tener sólo tres valores, que son entre sí comparables, porque todos están referidos a una línea de normalidad. Los valores proporcionados por el MDVP fueron así homologados y procesados en planillas de cálculo MS-Excel^TM.

3. RESULTADOS

En la tabla de la figura 2 se presentan los promedios que los 71 sujetos de la muestra obtuvieron en los cinco índices relativos a la estabilidad de la frecuencia.

Figura 2
Valores promedios de los índices de estabilidad de la frecuencia

En todos los índices, los promedios de la vocal /a/ son los más bajos y los de /i/, los más altos. Los valores correspondientes a la /u/ ocupan siempre un nivel intermedio. Esto significa que al pronunciar una /a/, una /u/ y una /i/ la estabilidad de la frecuencia de los sonidos que producen los sujetos va disminuyendo en ese orden.

Con el propósito de ver si es estadísticamente significativa la diferencia que se da, en promedio, entre los tres pares de vocales, se aplicó la prueba T de Student a los resultados obtenidos. Los valores t se presentan en la tabla de la figura 3.

Figura 3
Valores t de las diferencias de estabilidad de frecuencia

En todos los índices, las diferencias entre /a/ e /i/ son significativas, ya que los valores t superan el valor crítico que es 2.353 (p > .01). En cambio, la diferencia entre /a/ y /u/ sólo es significativa en el índice de evaluación de más largo alcance (sPPQ) y sólo al p > .05, cuyo valor crítico es 1.656. Las diferencias entre /i/ y /u/ son significativas al .05 en dos índices (Jita y RAP) y al .01 en otros dos (PPQ y sPPQ).

Sin embargo, esta tabla no nos permite visualizar la sistematicidad que subyace a estos valores. Esta regularidad se manifiesta claramente en el gráfico de la figura 4.

Figura 4
Gráfico de promedios de índices de estabilidad de frecuencia

Aquí podemos apreciar que, estadísticamente significativa o no la diferencia, en todos los índices, la /i/ muestra el menor grado de estabilidad de frecuencia, la /a/ el grado mayor y la /u/ se ubica siempre entre ambas.

En cuanto a la estabilidad de la amplitud del sonido glotal, los valores promedios para las tres vocales se pueden observar en la tabla de la figura 5.

Figura 5
Valores promdios de los índices de estabilidad de la amplitud

Tal como se observa en la tabla de la figura 5, en todos los índices, nuevamente los promedios de la vocal /a/ son los más bajos. La /u/ presenta los promedios más altos y los valores correspondientes a la /i/ ocupan siempre un nivel intermedio. Esto quiere decir que la estabilidad de la amplitud de los tres sonidos vocálicos analizados va decreciendo desde la /a/ hasta la /u/.

Los resultados que se obtuvieron al aplicar la prueba T de Student se presentan en la tabla de la figura 6.

Figura 6
Valores t de las diferencias de estabilidad de la amplitud

Al observar la tabla sólo en el índice de estabilidad de amplitud de más largo alcance (sAPQ) la diferencia entre /a/-/u/ y entre /a/-/i/ es estadísticamente significativa al nivel más exigente, cuyo valor crítico es 2.353. En todos los demás casos las diferencias no son significativas. Si sólo se tuviera en cuenta el resultado de esta prueba estadística, no se percibiría una regularidad que parece reforzarse cuando se considera en conjunto la variabilidad de la amplitud y de la frecuencia. Esta sistematicidad se puede apreciar claramente al observar el gráfico de la figura 7, sobre todo si se confronta con el gráfico de la figura 4.

Figura 7
Gráfico de promedios de índices de estabilidad de la amplitud

Se observa claramente que en todos los índices de estabilidad de la amplitud la vocal /a/ aparece con la amplitud más estable. Sin embargo, a diferencia de lo que ocurría con la estabilidad de la frecuencia, en el caso de la amplitud es la vocal /u/ la que aparece más perturbada.

A modo de ilustración, focalizando la atención en un solo índice, resulta interesante analizar los datos desde otra perspectiva, en la que no se consideran los valores promedios. En esta línea, se observará el índice de perturbación de la frecuencia de mayor alcance (sPPQ) en las vocales /a/ e /i/ que produjo cada uno de los sujetos. Estos índices de perturbación se pueden observar en la tabla de la figura 8.

Figura 8
Tabla de los valores de sPPQ de cada uno de los sujetos
para la /a/ y la /i/

En seis sujetos, al articular una /a/, el sPPQ se ubica en la zona de normalidad (valor 0). Sin embargo, cuando estos sujetos articulan una /i/, en tres de ellos el sPPQ avanza hacia la zona de riesgo (valor 1) y en los otros tres se ubica claramente en la zona de anormalidad (valor 2). En aquellos sujetos que al producir una /a/ el sPPQ se ubica en la zona de riesgo, al pronunciar una /i/ en dos de ellos, el sPPQ se mantiene en la misma zona y en el resto, 25 sujetos, avanza hasta la zona de anormalidad. Sólo en cuatro de los 38 sujetos, cuyo sPPQ se ubica en la zona de anormalidad al pronunciar una /a/, este índice bajó a la zona de riesgo cuando articularon una /i/. En todos los demás (34 sujetos), el sPPQ se mantuvo en la zona de anormalidad.

4. CONCLUSION, INFERENCIAS Y PROYECCIONES

La observación indirecta del trabajo más o menos intenso de las cuerdas vocales utilizando un instrumental que mide precisa y objetivamente el sonido producido nos permite concluir que:

/i/ y /u/ demandan más esfuerzo a las cuerdas vocales que la /a/, ya que, considerados en grupo o individualmente, al pronunciar una vocal /a/ los sujetos produjeron siempre un sonido más regular y estable que cuando pronunciaron una /i/ y una /u/.
En el caso de la /i/, la frecuencia del F0 es lo que más se perturba; en cambio, al pronunciar una /u/ lo que más se desestabiliza es la amplitud. Como ya se dijo en la introducción, esto es plenamente explicable por la disposición que adopta el pabellón faringobucal en el momento de articular estos sonidos. Esta situación dificulta la propagación del sonido y lo atenúa. Para compensar esta atenuación, las cuerdas vocales deben producir un sonido más intenso, es decir, son sometidas a un mayor esfuerzo.
Entre las vocales, la /i/ y la /u/ tienen la frecuencia de aparición más baja en el discurso, tal como ha sido corroborado en todos los estudios de frecuencia de aparición realizados². Este hecho puede estar relacionado con el mayor esfuerzo a que son sometidas las cuerdas vocales para articular las vocales cerradas.
El esfuerzo fisiológico señalado, muy estrechamente vinculado con la perceptibilidad de las vocales, podría estar relacionado con el carácter no silábico que adquieren /i/ y /u/ cuando se producen inmediatamente antes o después de otra vocal. De la misma manera, estos factores podrían tener relación con la posibilidad nula de que aparezca una secuencia de dos sílabas seguidas con la vocal /i/, como consecuencia de la combinación de una raíz con el morfema de gentilicio (Ej. curicano y no *curiquino, o floridano y no *floridino)³.

En cuanto a las aplicaciones y proyecciones, los resultados de este trabajo son, sin duda, útiles en el campo de la fonética clínica para la detección precoz de disfonías funcionales. En este sentido, se hace necesaria la estandarización para Chile de los índices de normalidad de shimmer y jitter, especialmente con aquellos que corresponden a un análisis de mayor alcance (sPPQ y sAPQ), ya que ellos muestran las diferencias de manera más marcada.

NOTAS

¹ Como ya se indicó, este proyecto estaba coordinado con otro desarrollado en la Universidad de Chile. El nuestro tenía una orientación lingüística. El que se realizó en la Universidad de Chile, en cambio, tenía una orientación fonoaudiológica y clínica. Ambos proyectos compartieron la misma muestra de informantes. Naturalmente, los informantes que presentaron difonías sólo interesaron al proyecto de investigación fonoaudiológico. El análisis acústico de las grabaciones de todos los sujetos, normales y disfónicos, se efectuó en el Laboratorio de Fonética de la Universidad de Concepción. Obviamente, todos los sujetos con alteraciones patológicas presentaron los índices de jitter y de shimmer negativos en cada una de las vocales producidas.

² Los resultados de la distribución de la frecuencia de fonemas para el español de Chile, determinados por Hernán Emilio Pérez en un corpus constituido por 15.649 palabras y 75.269 realizaciones de fonemas, muestran que las vocales /i/ y /u/ son las menos frecuentes (7.4% y 3.0%, respectivamente). Estos resultados manifiestan, en general, las mismas tendencias de otros cuatro trabajos realizados en otros países acerca de este tema.

³ Estas restricciones en la formación de gentilicios fueron expuestas en una ponencia presentada en el XIV Congreso de la Sociedad de Chilena de Lingüística (SOCHIL).

Universidad de Concepción
Facultad de Humanidades y Arte
Departamento de Español
Casilla 160 C, Correo 3, Concepción, Chile
E-mails: hleon@udec.cl
hvaldivi@udec.cl

OBRAS CITADAS

Grez et al. 1996. Validación de cuatro procedimientos para determinar el tono óptimo. Seminario para optar al título de Fonoaudiólogo. Facultad de Medicina, Universidad de Chile.

Hyman, Larry M. 1981. Fonología. Teoría y análisis. Madrid: Paraninfo.

Pérez, Hernán Emilio (s.f.). Fonética segmental del español público de Chile: un estudio de variación estilística en la pronunciación de los noticieros de la televisión chilena. Tesis doctoral en curso. Universidad de Concepción.

Quilis, Antonio. 1988. Fonética acústica de la lengua española. Madrid: Gredos.