Podemos emitir muy diferentes sonidos con nuestras voces, y en comparación con las nuevas tecnologías, los humanos somos mucho mejores entendiendo no solo lo que se dice sino cómo se dice. La voz tiene una amplia gama de comportamientos, por ejemplo, puede pasar de notas bajas a altas, y de notas graves a agudas.  Más aún, los individuos tenemos los pliegues vocales y los tractos vocales tan diferentes entre sí como lo son nuestras caras. Estas diferencias van también impresas en el sonido y en otras señales que podemos obtener de una voz.   

Esta gran variabilidad convierte a la voz en un rico y maravilloso canal de comunicación. Desafortunadamente, cuando tratamos de obtener métricas físicas a través de señales e imágenes vocales, no es aconsejable asignar una determinada interpretación a una sola medida, ya que todas las métricas vocales cambiarán con el nivel de sonido y/o la frecuencia fundamental. Se puede ver un ejemplo en la Figura 1. 

Figura 1. Se muestran 5 métricas vocales mapeadas, de un cantante de coro amateur hombre sin problemas de salud, en la realización de ejercicios suave-fuerte-suave en el rango limitado a una octava. Puede ser útil imaginarlos como 5 capas de un mismo mapa vocal. Se muestra la media de los cientos de miles de ciclos fonatorios grabados en un intervalo de 6 minutos. N.B.: EGG = electroglotografía; dEGG = derivativa de la forma de onda de EGG; fo = frecuencia fundamental, medida en Hertz; SPL = nivel de presión sonora medida en decibelios (datos de Selamtzis & Sternström, 2017). 

En los mapas mostrados, vemos seis métricas codificadas con colores, extraídas de la señal de EGG y de las señales de audio, todas sacadas de una única grabación de una misma persona. Incluso siendo la tarea simplemente cantar la vocal /a/ en un rango limitado de tonos, está claro que las medidas varían considerablemente en la dirección vertical (que representa el nivel de sonido), y en algunos aspectos, también horizontalmente (que representa la frecuencia fundamental). Por lo tanto, cuando damos los resultados de las medidas vocales, es importante también dar los datos de la SPL calibrada y la fo. Si pedimos a esta persona realizar la misma tarea de nuevo, el mapa será muy similar, a no ser que algo haya cambiado en su voz entre medida y medida. Esto significa que podemos ver los efectos de una intervención. Si pedimos a otra persona hacer la misma tarea, el mapa será mucho menos parecido. Esto significa que, en general, los efectos de las intervenciones solo pueden evaluarse directamente en la misma persona. 

Un tipo especial de mapa vocal existe desde hace mucho tiempo, el perfil del rango vocal (VRP; fonetograma en la literatura antigua) (Ternström, Pabon & Södersten, 2016). Un VRP es un mapa vocal adquirido para determinar el rango vocal más amplio que una persona es capaz de producir: los límites que puede alcanzar en menor y mayor volumen, y los tonos más graves y más agudos. Normalmente, se avalúa solo el contorno o “línea de costa” de esta “región alcanzable”. Hay una gran cantidad de literatura dedicada a la obtención e interpretación de estos contornos. Una obtención fiable de los extremos requiere de entrenamiento y una buena cantidad de tiempo en la sesión de grabación.  Si no está bien recogido, puede ser también otra fuente de variación. 

Hay cosas muy distintas que pueden ir mal en la voz, y mientras las diferentes patologías muestran diferentes formas en la señal, es bastante difícil separar las causas de los efectos. La gran variabilidad y la interdependencia entre las métricas implican, por ejemplo, que no podemos esperar ser capaces de discriminar de manera precisa entre voces normales y patológicas. Si no tenemos en cuenta los efectos de la SPL y la fo, los datos contendrán una gran cantidad de variaciones irrelevantes. En otras palabras, no podemos simplemente obtener medidas como el equilibrio del espectro, o el Cociente de Contacto del EGG, o el Pico Cepstral Suavizado CPPS), en unas cuantas vocales sostenidas en un tono y volumen “cómodos” (i.e., inespecífico), y luego dar un veredicto sobre si la voz es o no sana. Eso sería como evaluar la fotografía de la cara de una persona a través de unos cuantos píxeles. Esto explica por qué décadas de investigación han concluido que el valor de evidencia de una sola medida es débil, especialmente, cuando se compara entre individuos en los que no se contabiliza la SPL y la fo. A menudo no porque las medidas no sean adecuadas, sino porque no las hemos recogido o cotejado de manera adecuada.  El mapeado vocal es un método mediante el cual la SPL y la fo están constantemente tenidas en cuenta para realizar las tareas vocales; se recogen muchos más datos para cada individuo y se puede realizar la covariación de las diferentes medidas.  

El efecto de las intervenciones puede verse haciendo mapas pre y pos, y construyendo un nuevo mapa que muestras las diferencias, como en la Figura 2, que muestra el equilibrio del espectro (SB) de la señal del micrófono en decibelios, en una escala de color. Un cantante hombre entrenado, hizo un ejercicio suave-fuerte-suave, primero de manera normal, y luego mientras fonaba a través de una flow-ball, y de nuevo, de manera inmediata, sin la flow-ball (Lã & Ternström, 2020). No es posible realizar un mapa relevante durante la tarea con la flow-ball, porque la SPL cambia dramáticamente. 

Figura 2. Mapas del equilibrio del espectro preintervención, posintervención y la diferencia, para facilitar la comparación a través de la intervención (datos de Lã & Ternström, 2020).  

Los mapas pre y pos parecen bastante similares, pero el mapa de la derecha muestra las diferencias después de la intervención. El verde indica incremento y el rojo reducción, en el caso del SB. Vemos que el SB se incrementa de manera consistente (verde: sonido vocal más brillante) con la voz con bajo volumen, por debajo de los 80 dB, y reducida (rojo) en la voz con volumen alto. Este efecto habría sido imposible de demostrar de manera convincente con solo unas cuantas vocales sostenidas. Actualmente se sigue trabajando en la validación de la metodología de estos mapas de diferencias. 

El mapa vocal también puede usarse como herramienta de retroalimentación visual en tiempo real, mostrando al paciente o al estudiante cómo varían las propiedades de su voz en el mismo momento. Es algo muy apreciado por los participantes, que a menudo se divierten “pintando” con la voz, y al mismo tiempo, se hacen más conscientes de cómo funcionan sus voces y cómo cambian a lo largo del entrenamiento o el tratamiento. 

El Laboratorio de Voz de la UNED es pionero en el uso del mapeado vocal, y está contribuyendo al continuo desarrollo de este método prometedor, en colaboración cercana con los investigadores que lideran su desarrollo.  

Texto escrito por Sten Ternström y Peter Pabon 

Lecturas adicionales: 

Lã, F.M.B. & Ternström (2020). Flow ball-assisted voice training: immediate effects on vocal fold contacting. Biomedical Signal Processing and Control,62: 102064. 

Pabon, P. (2018). Mapping Individual Voice Quality over the Voice Range: the measurement paradigm of the voice range profile. Doctoral Thesis in Speech and Music Communication, KTH, Stockholm, Sweden. 

Selamtzis, A. & Ternström, S. (2017). Investigation of the relationship between electroglottogram waveform, fundamental frequency and sound pressure level using clustering. Journal of Voice, 31(4): 393-400. 

Tersntröm, S., Paon, P. & Sodersten, M. (2016). The Vocie Range Profile: Its function, applications, pitfalls and potential. Acta Acustica United with Acustica, 102(2): 268-283.