Cada sonido vocal tiene características físicas que pueden ser relacionadas con evaluaciones perceptivas de ese sonido. La frecuencia (medida en Hertz, Hz) corresponde al tono percibido, el nivel de sonido (medido en decibelios, dB) al volumen, las características del espectro al timbre vocal y la duración de los patrones al ritmo. Estas cuatro características físicas y perceptuales del sonido son cuantificables. Aquí nos centraremos solo en la medida de las características físicas del sonido, o, en otras palabras, en análisis acústicos.  

La voz es el resultado de la interacción entre tres subsistemas que constituyen el aparato vocal (ver Figura 1): la fuente de energía –la corriente de aire procedente de los pulmones-, la fuente de sonido – el flujo de aire generado después de la interrupción de la corriente de aire por el cierre de los pliegues vocales-, y los modificadores del sonido –los articuladores que modifican la longitud y la forma del tracto vocal, y por lo tanto sus frecuencias de resonancia. (Sundberg, 1987).  

Figura 1. Subsistemas que constituyen el aparato vocal (adaptado de Welch & Sundberg, 2002: 253) 

La fuente de sonido crea variaciones de presión que viajan hacia delante y hacia atrás a través del tracto vocal, y se irradian principalmente a través de la boca, llegando a nuestros oídos (Herbst, 2017). La Figura 2 representa la propagación de un tono puro y cómo las variaciones generadas pueden ser capturadas por un micrófono, y luego ser convertidas por una tarjeta de sonido de un ordenador u otro aparato externo, en una señal eléctrica, y luego a una digital. Esta señal es grabada por un programa y almacenada como un archivo de sonido.  

Figura 2. Representación gráfica de una forma de onda simple (onda sinusoide) (encima) y su correspondiente distribución de partículas de aire (abajo). 

Los diferentes sonidos tienen distintas formas de onda de presión acústica. Para poder caracterizar cuantitativamente estas formas de onda, se debe aplicar un teorema matemático. –Transformación Rápida de Fourier (FFT). Está establecido, que cualquier forma de onda periódica puede ser descrita como un conjunto de componentes de frecuencia individuales (Componentes de Fourier). Cada componente de frecuencia de Fourier es una onda sinusoidal y si se suman, producen la forma de onda periódica y compleja que analizamos. Todas las formas de onda que constituyen una forma de onda compleja periódica tienen una relación especial: Sus frecuencias son números enteros (1, 2, 3, 4, 5, etc..) múltiplos de la frecuencia fundamental (fo) (1xfo; 2xfo; 3xfo; 4xfo; 5xfo; etc..). Este conjunto de componentes de frecuencia se denomina serie armónica. La Figura 3 (a la izquierda) representa una forma de onda periódica compleja con 10 armónicos, cada uno de ellos es una onda sinusoidal. Las frecuencias de estos 10 armónicos son todas multiplicaciones enteras de la fo, las más bajas de las correspondientes a intervalos musicales específicos. Esto también se puede representar gráficamente como un espectro que muestra todos los componentes de un sonido, descomponiendo las formas de onda de sonido que están en el dominio del tiempo en su espectro en el dominio de la frecuencia. La Figura 3 (a la derecha) muestra dicho espectro. Aquí, el eje vertical representa la amplitud de cada uno de los armónicos mientras que el eje horizontal representa su frecuencia.  

Figura 3. Serie de armónicos de un tono complejo (a la izquierda) y su representación gráfica a través de la visualización del espectro en un instante de tiempo en la forma de onda (derecha) (adaptado de Howard & Murphy, 2008, 12). 

La forma del espectro se relaciona con el timbre percibido (Howard & Murphy, 2008; Titze & Verdolini, 2012), por lo que los análisis acústicos son habitualmente usados en contextos clínicos y educativos.  El estudio de las variaciones de presión capturadas en el tiempo, i.e., formas de onda, permite evaluaciones tanto perceptivas como acústicas de la producción vocal.  En la clínica, analizar las señales acústicas ayuda al diagnóstico de la función y la salud vocales (Behlau et al., 2022; Hillenbrand, 2011). Además, este tipo de análisis pueden realizarse para cuantificar los efectos de intervenciones terapéuticas o quirúrgicas (Hillenbrand, 2011; Behlau et al., 2022; Sundberg, 1987, Titze & Verdolini, 2012). En contexto educativo, los profesores utilizan información de los análisis acústicos como retroalimentación visual en tiempo real para guiar a los estudiantes en el desarrollo del conocimiento de los resultados (Welch et al., 2005) y, por lo tanto, para promover su autonomía a la hora de encontrar estrategias de resolución de problemas (Lã, 2012) y lograr objetivos estéticos concretos (Vennard, 1967; Nair, 1999; McCoy, 2004).  

Al espectro de un momento concreto en el tiempo se le llama espectro de potencia (Lã, 2012), donde el eje horizontal representa la frecuencia y el vertical la amplitud (ver Figura 4), aunque en algunos programas, los ejes pueden aparecer invertidos. Las medidas basadas en el espectro son la pendiente del espectro (i.e., la pendiente promediada de la envolvente del espectro), H1-H2 (i.e., la diferencia de amplitud entre el primer y el segundo parcial armónico) y el espectro medio a largo plazo, LTAS (i.e., el espectro promediado en un periodo de tiempo dado) (Howard & Murphy, 2008). 

Figura 4. Espectro de potencia de una señal de audio de un cantante en un momento determinado de tiempo, mostrando frecuencias e intensidades de los 11 armónicos más bajos.  

Un espectrograma es una representación gráfica que muestra variaciones del espectro sobre el tiempo. Por lo tanto, los espectrogramas contienen información 3D donde el tiempo se representa en el eje X, la frecuencia en el eje Y, y la intensidad mediante el color.  Los espectrogramas muestran las características tímbricas en secuencias de sonidos o en sonidos sostenidos. Estos permiten el análisis de efectos combinados del comportamiento glótico y los movimientos del tracto vocal, como las vocales y las consonantes durante el habla y el canto (Lã, 2012; Stemple et al, 2020). 

Los espectrogramas pueden configurarse para presentar datos tanto de acuerdo a la concentración de energía en banda ancha –espectrogramas de banda ancha-, o en frecuencias estrechas –espectrogramas de banda estrecha (ver Figura 5). El primero es más apropiado para mostrar cómo varían las frecuencias de los formantes en el tiempo, i.e., estrategias de resonancia, mientras que el segundo ofrece una visión más detallada de cómo los parciales armónicos varían en el tiempo individualmente (Lã, 2012). 

Con los espectrogramas de banda ancha es posible reconocer vocales, consonantes, y resonancias de tracto vocal o frecuencias de los formantes en términos de patrones con forma de gusano, que reflejan gestos articulatorios. Esta información es usada habitualmente en estudios de fonética, con el objetivo de identificar el resultado de determinadas configuraciones del tracto vocal. También suele aplicarse en clínica forense, donde los expertos necesitan diferenciar los patrones idiomáticos de las características vocales. Además, también pueden utilizarlos los profesores de canto (Koenig, 1986; Lã, 2012; Sundberg, 1987; Welch et al., 2005). Los espectrogramas de banda estrecha muestran cómo los parciales varían a lo largo del tiempo. Es posible ver el contorno de la frecuencia fundamental (fo) en una frase o en un tono sostenido para analizar la prosodia, el vibrato, coincidencias de tono, saltos de registro, y muchas otras propiedades relacionadas con la fuente vocal (Lã, 2012; Roubeau et al., 2009). Además de la vibración de los pliegues vocales, en las valoraciones espectrográficas se pueden ver las interacciones subyacentes a la vibración glótica y el paso de aire durante los inicios vocales (Lã, 2012).  

Figura 5. Espectrogramas de banda ancha (izquierda) y estrecha (derecha), mostrando la vocal /a/ cantada en D4 con un registro modal (adaptado de Lã, 2012: 101). 

El espectro medio a largo plazo (LTAS) es usado a menudo como herramienta para mostrar importantes propiedades de los sonidos. Muestra la amplitud media en diferentes bandas de frecuencia a lo largo del eje horizontal (ver Figura 6). Los picos en el LTAS representan las medias de las frecuencias de los formantes.  Las medidas más utilizadas extraídas del análisis del LTAS son el equilibrio espectral, i.e., la diferencia de amplitud entre la parte de baja y alta frecuencia de la curva del LTAS. Por lo tanto, la ratio de alfa especifica la relación entre frecuencia por encima y por debajo de 1000Hz en un LTAS, una medida que a menudo correlaciona con el volumen vocal, y también con el brillo tímbrico. 

Figura 6. El espectro medio a largo plazo (LTAS) de una soprano cantando “O mio babbino caro” de la ópera Gianni Schicchi de Giacomo Puccini. SPL significa nivel de presión sonora. 

Además del análisis cualitativo del timbre de la voz, los análisis acústicos aportan información cuantitativa sobre la regularidad de la vibración de los pliegues vocales en términos de medidas de perturbación de la voz. Tradicionalmente, la regularidad en la voz se ha medido de manera monoparamétrica, en términos de perturbación de la frecuencia y la amplitud, y de los niveles de ruido. El Jitter mide las variaciones de frecuencia de la fo. Puede extraerse tanto de las variaciones de ciclo a ciclo (jitter absoluto o relativo) o a través de la interpolación (e.g., la media de cada 3 ciclos para obtener la Perturbación Media Relativa –RAP). El Shimmer refleja la variación de amplitud. Como el jitter, también el shimmer puede evaluarse ciclo a ciclo (shimmer absoluto y relativo) o interpolando ciclos (e.g., la media de 11 ciclos para obtener el Cociente de Perturbación de la Amplitud -APQ). La fundamentación de la interpolación de los ciclos es reducir la sensibilidad mediante efectos de suavizado en las variaciones a corto plazo, causado e.g., por la fo o cambios articulatorios (Hillenbrand, 2011; Stemple et al., 2020). 

La voz humana también genera señales no periódicas, o ruido (ver Figura 7). Medir los niveles de ruido en la voz ofrece información sobre el grado de periodicidad de los ciclos glóticos y del cierre glótico incompleto de la vibración de los pliegues vocales. Por ejemplo, la Ratio Armónico-Ruido (HNR), Ratio Ruido-Armónico (NHR) y la Excitación Glótica-Ruido (GNE) calculan los componentes de ruido y armónicos, datos que pueden medirse y están relacionados con el aire y la aspereza en la voz (Behlau et al., 2022; Hillenbrand, 2011). 

Figura 7. Ejemplo de un espectro de voz no soplada (a la izquierda) y soplada (con aire) (a la derecha). 

Algunas medidas, como el jitter y el shimmer, son difíciles de relacionar con las características perceptivas de la voz, y no hay consenso sobre su relevancia clínica (Behlau et al., 2020; Hillenbrand, 2011). 

Otra representación visual del sonido es el Cepstrum, que es el espectro del espectro; series de espectros adyacentes, dispuestos en una secuencia de tiempo que se considera una señal de audio, convirtiendo así el espectro a una señal en el dominio del tiempo (Behlau et al., 2022; Stemple et al., 2020). Esto refleja tanto la periodicidad como las propiedades espectrales de la señal (i.e., los componentes armónicos).  Una medida habitualmente utilizada extraída de los análisis de cepstrum es el Suavizado de la Prominencia del Pico (CPPS), que tiene relación clínicamente probada con los trastornos vocales (Englert et al., 2020). 

Actualmente, están siendo adoptados los análisis multiparamétricos para mejorar la precisión de las evaluaciones acústicas y su relevancia clínica. Un ejemplo es el Índice Acústico de Calidad Vocal (AVQI), que resume un número de medidas: CPPS, ratio armónico-ruido (HNR), shimmer absoluto y relativo, pendiente general del espectro, todo en una sola puntuación final (Behlau et al, 2022; Maryn et al., 2010). Otra forma nueva de análisis acústico es la aplicación de análisis dinámicos no lineales. Se ha demostrado que estos análisis son adecuados para todo tipo de voces, incluso los completamente aperiódicos. Ejemplos de análisis no lineales son la Transformación de Hilbert-Huang y el análisis Wavelet (Lopes et al., 2019).  

Independientemente del tipo de análisis acústico que se aplique, se debe prestar atención a los procedimientos de grabación. Son muchos los factores que pueden tener impacto en los resultados de la medida acústica, como el tipo de micrófono o la distancia a la que se coloca (Titze & Winholtz, 1993), las vocales (Kiliç et al., 2004), la intensidad vocal (de Oliveira Florencio et al, 2021) y el tamaño de la muestra de (Englert et al., 2020). Las recomendaciones sobre cómo realizar análisis acústicos están descritos en las lecturas sugeridas (Patel et al., 2018). Se pueden encontrar guías detalladas para la selección de los micrófonos y la medida de la intensidad vocal mediante señales acústicas en los dos artículos de los autores Švec and Granqvist (2010; 2018). Escoger cuidadosamente el micrófono es extremadamente importante. Los micrófonos para escenarios/estudio tienen a menudo un pico de entre 5 y 10 kHz y, por lo tanto, no son adecuados para los análisis acústicos. Los micrófonos dinámicos/direccionales tienen una curva de sensibilidad dependiente de la distancia. Por lo tanto, para el análisis acústico en entornos clínicos y educativos, se recomienda el uso de micrófonos omnidireccionales con una respuesta plana en todo el rango de frecuencias audibles. 

Referencias: 

Behlau, M., Madazio, G., Vaiano, T., Pacheco, C., & Badaró, F. (2022). Voice evaluation–contribution of the speech-language pathologist voice specialist–SLP-V: Part B. Acoustic analysis, physical examination and correlation of all steps with the medical diagnoses. Hearing, Balance and Communication, 1-7. 

de Oliveira Florencio, V., Almeida, A. A., Balata, P., Nascimento, S., Brockmann-Bauser, M., & Lopes, L. W. (2021). Differences and Reliability of Linear and Nonlinear Acoustic Measures as a Function of Vocal Intensity in Individuals With Voice Disorders. Journal of Voice. In Press. 

Englert, M., Lima, L., Latoszek, B. B. V., & Behlau, M. (2020). Influence of the voice sample length in perceptual and acoustic voice quality analysis. Journal of Voice. In Press. 

Herbst, C. T. (2017). A review of singing voice subsystem interactions—toward an extended physiological model of “support”. Journal of voice, 31(2), 249-e13. 

Hillenbrand, J. M. (2011). Acoustic analysis of voice: a tutorial. Perspectives on Speech Science and Orofacial Disorders, 21(2), 31-43. 

Howard, D.M. & Murphy, D.T. (2008). Voice Science Acoustics and Recording. Plural Publishing. 

Kiliç, M. A., Öğüt, F., Dursun, G., Okur, E., Yildirim, I., & Midilli, R. (2004). The effects of vowels on voice perturbation measures. Journal of Voice, 18(3), 318-324. 

Koenig, B. E. (1986). Spectrographic voice identification: a forensic survey. The Journal of the Acoustical Society of America, 79(6), 2088-2090. 

Lã, F. M. (2012). Teaching singing and technology. Aspects of singing II-unit in understanding-Diversity in aesthetics, 88-109. 

Lopes, L. Dajer, E. & Camargo, Z. Análise acústica na Clínica Vocal in Lopes, (2019). L., Moreti, F., Ribeiro, L. L., & Pereira, E. C. Fundamentos e atualidades em voz clínica. Thieme Revinter. 31-47. 

Maryn, Y., De Bodt, M., & Roy, N. (2010). The Acoustic Voice Quality Index: toward improved treatment outcomes assessment in voice disorders. Journal of communication disorders, 43(3), 161-174. 

McCoy, S. (2004). Your voice: An Inside View: multimedia voice science and pedagogy. Inside View Press. 

Miller, D. G. (2008). Resonance in singing: Voice building through acoustic feedback. Inside view press. 

Nair, G. (1999). Voice – Tradition and Technology: a state-of-the-art studio. Singual Publishing Group. 

Patel, R. R., Awan, S. N., Barkmeier-Kraemer, J., Courey, M., Deliyski, D., Eadie, T., … & Hillman, R. (2018). Recommended protocols for instrumental assessment of voice: American Speech-Language-Hearing Association expert panel to develop a protocol for instrumental assessment of vocal function. American journal of speech-language pathology, 27(3), 887-905. 

Roubeau, B., Henrich, N. & Castellengo, M. (2009). Laryngeal vibratory mechanisms: the notion of vocal register revisited. Journal of Voice, 23(4), 425-438. 

Stemple, J. C., Roy, N. & Klaben, B. K. (2020). Clinical voice pathology: Theory and management. Plural Publishing. 

Švec, J. G. & Granqvist, S. (2010). Guidelines for selecting microphones for human voice production research. American Journal of Speech-Language Pathology, 19, 356-368. 

Švec, J. G. & Granqvist, S. (2018). Tutorial and Guidelines on Measurement of Sound Pressure Level in Voice and Speech. Journal of Speech, Language and Hearing Research, 61, 441-461. 

Sundberg, J. (1987). The science of the singing voice. Northern Illinois University Press. 

Titze, I. R. & Verdolini-Abbot, K. (2012). Vocology: The science and practice of voice habilitation. The National Center for Voice and Speech. 

Titze, I.R. & Winholtz, W. S. (1993). Effect of microphone type and placement on voice perturbation measurements. Journal of Speech, Language, and Hearing Research, 36(6), 1177-1190. 

Vennard, W. (1967). Singing: the mechanism and the technic. Carl Fischer. 

Welch, G. F., Howard, D. M., Himonides, E., & Brereton, J. (2005). Real-time feedback in the singing studio: an innovatory action-research project using new voice technology. Music Education Research, 7(2), 225-249. 

Welch, G.F. & Sundberg, J. (2002). Solo Voice. In R. Parncutt & G.E. McPherson (eds). The Science and Psychology of Music Performance: creative strategies for teaching and learning. Oxford University Press.