Cada som vocal tem características físicas que podem ser relacionadas com avaliações perceptuais desse som. A frequência (medida em Hertz, Hz) corresponde ao tom percepcionado, o nível sonoro (medido em decibéis, dB) ao volume, as características do espectro ao timbre vocal e a duração de padrões ao ritmo. Estas quatro características físicas e perceptivas do som são quantificáveis. Aqui, vamos concentrar-nos apenas na medição das características físicas do som, ou, por outras palavras, na análise acústica. 

A voz é o resultado da interacção entre três subsistemas que constituem o aparelho vocal (ver Figura 1): a fonte de energia – o fluxo de ar proveniente dos pulmões, a fonte de som – o fluxo de ar gerado após a interrupção do fluxo de ar devida ao fecho das pregas vocais, e os modificadores de som – os articuladores que modificam o comprimento e a forma do tracto vocal e, consequentemente, as suas frequências de ressonância (Sundberg, 1987).

Figura 1. Subsistemas que constituem o aparato vocal (adaptado de Welch & Sundberg, 2002: 253) 

A fonte sonora cria variações de pressão que viajam para trás e para a frente através do tracto vocal e irradiam principalmente através da boca, chegando aos nossos ouvidos (Herbst, 2017). A Figura 2 mostra a propagação de um tom puro e como as variações geradas podem ser captadas por um microfone, convertidas por uma placa de som de computador ou outro dispositivo externo num sinal eléctrico e depois num sinal digital. Este sinal é gravado por um programa e armazenado como um ficheiro de som.

Figura 2. Representação gráfica de uma forma de onda simples (onda sinusoidal) (acima) e a sua correspondente distribuição de partículas de ar (abaixo). 

Sons diferentes têm formas de onda de pressão sonora diferentes. Para caracterizar quantitativamente estas formas de onda, é necessário aplicar um teorema matemático – Transformada Rápida de Fourier (FFT). Estabelece-se que qualquer forma de onda periódica pode ser descrita como um conjunto de componentes de frequência individuais (componentes de Fourier). Cada componente de frequência de Fourier é uma onda sinusoidal e, quando somadas, produzem a forma de onda periódica complexa que estamos a analisar. Todas as formas de onda que constituem uma forma de onda periódica complexa têm uma relação especial: as suas frequências são múltiplos inteiros (1, 2, 3, 4, 5, etc.) da frequência fundamental (fo) (1xfo; 2xfo; 3xfo; 4xfo; 5xfo; etc.). Este conjunto de componentes de frequência é designado por série harmónica. A Figura 3 (à esquerda) representa uma forma de onda periódica complexa com 10 harmónicos, cada um dos quais sendo uma onda sinusoidal. Todas as frequências destes 10 harmónicos são multiplicações inteiras de fo, correspondendo as mais baixas a intervalos musicais específicos. Tal também pode ser representado graficamente como um espectro que mostra todos os componentes de um som, decompondo as formas de onda sonora no domínio do tempo nos seus espectros no domínio da frequência. A Figura 3 (direita) mostra um espectro deste tipo. Aqui, o eixo vertical representa a amplitude de cada um dos harmónicos, enquanto o eixo horizontal representa a sua frequência.

Figura 3. Série de harmónicos de um som complexo (à esquerda) e a sua respresentação gráfica através da visualização do espectro num instante de tempo na forma de onda (à direita) (adaptado de Howard & Murphy, 2008, 12). 

A forma espectral está relacionada com a percepção do timbre (Howard & Murphy, 2008; Titze & Verdolini, 2012), pelo que as análises acústicas são frequentemente utilizadas em contextos clínicos e educativos.  O estudo das variações de pressão captadas ao longo do tempo, ou seja, as formas de onda, permite a avaliação perceptiva e acústica da produção vocal.  Na clínica, a análise de sinais acústicos auxilia no diagnóstico da função e saúde vocal (Behlau et al., 2022; Hillenbrand, 2011). Além disso, tais análises podem ser realizadas para quantificar os efeitos de intervenções terapêuticas ou cirúrgicas (Hillenbrand, 2011; Behlau et al., 2022; Sundberg, 1987, Titze & Verdolini, 2012). Em contexto educativo, os professores utilizam a informação das análises acústicas como feedback visual em tempo real para orientar os alunos no desenvolvimento do conhecimento dos resultados (Welch et al., 2005) e, assim, promover a sua autonomia na procura de estratégias de resolução de problemas (Lã, 2012) e na concretização de objectivos estéticos concretos (Vennard, 1967; Nair, 1999; McCoy, 2004). 

O espectro de um determinado momento no tempo é designado por espectro de potência (Lã, 2012), em que o eixo horizontal representa a frequência e o eixo vertical a amplitude (ver Figura 4), embora em alguns programas os eixos possam estar invertidos. As medidas baseadas no espectro são o declive do espectro (ou seja, o declive médio do envelope do espectro), H1-H2 (ou seja, a diferença de amplitude entre os primeiro e segundo harmónicos parciais) e o Long-Term Average Spectrum – LTAS (ou seja, o espectro médio durante um determinado período de tempo) (Howard & Murphy, 2008).

Figura 4. Espectro de potência de um sinal de áudio de um cantor num determinado instante de tempo, mostrando as frequências e as intensidades dos 11 harmónicos mais baixos.  

Um espectrograma é uma representação gráfica que mostra as variações do espectro ao longo do tempo. Por conseguinte, os espectrogramas contêm informação 3D em que o tempo é representado no eixo dos X, a frequência no eixo dos Y e a intensidade pela cor.  Os espectrogramas mostram características tímbricas em sequências de sons ou em sons sustentados. Permitem a análise dos efeitos combinados do comportamento glótico e dos movimentos do tracto vocal, como vogais e consoantes durante a fala e o canto (Lã, 2012; Stemple et al, 2020).

Os espectrogramas podem ser configurados para apresentar os dados de acordo com a concentração de energia em banda larga – espectrogramas de banda larga, ou em frequências estreitas – espectrogramas de banda estreita (ver Figura 5). O primeiro é mais adequado para mostrar como as frequências dos formantes variam no tempo, ou seja, as estratégias de ressonância, enquanto o segundo oferece uma visão mais detalhada de como os parciais harmónicos variam individualmente no tempo (Lã, 2012).

Com espectrogramas de banda larga, é possível reconhecer vogais, consoantes e as ressonâncias do tracto vocal ou as frequências dos formantes em padrões de linhas, que reflectem gestos articulatórios. Esta informação é normalmente utilizada em estudos fonéticos, a fim de identificar o resultado de determinadas configurações do tracto vocal. Também é frequentemente aplicada em medicina legal clínica, quando os peritos necessitam de diferenciar padrões idiomáticos de características vocais. Para além disso, também podem ser utilizados por professores de canto (Koenig, 1986; Lã, 2012; Sundberg, 1987; Welch et al., 2005). Os espectrogramas de banda estreita mostram como os parciais variam ao longo do tempo. É possível visualizar o contorno da frequência fundamental (fo) numa frase ou num tom sustentado para analisar a prosódia, o vibrato, as coincidências de tons, os saltos de registo e muitas outras propriedades relacionadas com a fonte vocal (Lã, 2012; Roubeau et al., 2009). Para além da vibração das pregas vocais, as avaliações espectrográficas podem analisar as interacções subjacentes à vibração glótica e à passagem de ar durante os onsets vocais (Lã, 2012).

Figura 5. Espectrogramas de banda larga (à esquerda) e estreita (à direita), mostrando a vogal /a/ cantada em D4 com um registo modal (adaptado de Lã, 2012: 101). 

O espectro médio de longo termo (LTAS) é frequentemente utilizado como ferramenta para mostrar propriedades importantes dos sons. Mostra a amplitude média em diferentes bandas de frequência ao longo do eixo horizontal (ver Figura 6). Os picos no LTAS representam as médias das frequências dos formantes.  As medidas mais frequentemente utilizadas extraídas da análise LTAS são o equilíbrio espectral, ou seja, a diferença de amplitude entre a parte de baixa e alta frequência da curva LTAS. Desta forma, o rácio alfa especifica a relação entre a frequência acima e abaixo de 1000Hz num LTAS, uma medida que se correlaciona frequentemente com o volume vocal e também com o brilho tímbrico.

Figura 6. O espectro médio de largo termo (LTAS) de uma soprano cantando “O mio babbino caro” da ópera Gianni Schicchi de Giacomo Puccini. SPL significa nível de pressão sonora. 

Para além da análise qualitativa do timbre da voz, as análises acústicas fornecem informações quantitativas sobre a regularidade da vibração das pregas vocais em termos de medidas de perturbação da voz. Tradicionalmente, a regularidade vocal tem sido medida monoparametricamente, em termos de perturbação de frequência e amplitude, e de níveis de ruído. O Jitter mede as variações de frequência da fo. Pode ser extraído das variações ciclo a ciclo (jitter absoluto ou relativo) ou através de interpolação (por exemplo, a média de cada 3 ciclos para obter a Perturbação Média Relativa – RAP). O Shimmer reflecte a variação da amplitude. Tal como o jitter, o shimmer também pode ser avaliado ciclo a ciclo (shimmer absoluto e relativo) ou por interpolação de ciclos (por exemplo, a média de 11 ciclos para obter o Quociente de Perturbação de Amplitude – APQ). A lógica da interpolação de ciclos consiste em reduzir a sensibilidade através de efeitos de suavização das variações a curto prazo, causadas, por exemplo, fo ou alterações articulatórias (Hillenbrand, 2011; Stemple et al., 2020).

A voz humana também gera sinais não periódicos, ou ruído (ver Figura 7). A medição dos níveis de ruído na voz fornece informações sobre o grau de periodicidade dos ciclos glóticos e do fecho glótico incompleto da vibração das pregas vocais. Por exemplo, a relação harmónico-ruído (HNR), a relação ruído-harmónico (NHR) e a excitação do ruído glótico (GNE) calculam os componentes de ruído e harmónicos, que podem ser medidos e estão relacionados com o ar e a aspereza da voz (Behlau et al., 2022; Hillenbrand, 2011).

Figura 7. Exemplo de um espectro de voz não soprada (à esquerda) e soprada (com ar) (à direita).

Algumas medidas, como o jitter e o shimmer, são difíceis de relacionar com as características perceptivas da fala, não havendo consenso sobre sua relevância clínica (Behlau et al., 2020; Hillenbrand, 2011).

Outra representação visual do som é o Cepstrum, que é o espectro do espectro; série de espectros adjacentes, dispostos numa sequência temporal que é considerada um sinal de áudio, convertendo assim o espectro num sinal no domínio do tempo (Behlau et al., 2022; Stemple et al., 2020). Isto reflecte tanto a periodicidade como as propriedades espectrais do sinal (ou seja, os componentes harmónicos).  Uma medida comumente usada extraída de análises de cepstrum é a suavização da proeminência do pico (CPPS), que tem uma relação clinicamente comprovada com distúrbios vocais (Englert et al., 2020).

Actualmente, as análises multiparamétricas estão a ser adoptadas para melhorar a precisão das avaliações acústicas e a sua relevância clínica. Um exemplo é o índice acústico da qualidade vocal (AVQI), que resume uma série de medidas: CPPS, relação harmónico-ruído (HNR), shimmer absoluto e relativo, declive global do espectro, tudo numa única pontuação final (Behlau et al, 2022; Maryn et al., 2010). Outra forma nova de análise acústica é a aplicação de análises dinâmicas não lineares. Estas análises têm-se revelado adequadas para todos os tipos de vozes, mesmo as totalmente aperiódicas. Exemplos de análises não lineares são a Transformada de Hilbert-Huang e a análise Wavelet (Lopes et al., 2019). 

Independentemente do tipo de análise acústica aplicada, deve ser dada atenção aos procedimentos de gravação. Muitos factores podem ter impacto nos resultados da medição acústica, como o tipo de microfone ou a distância a que este é colocado (Titze & Winholtz, 1993), as vogais (Kiliç et al., 2004), a intensidade vocal (de Oliveira Florencio et al., 2021) e o tamanho da amostra (Englert et al., 2020). As recomendações sobre como realizar análises acústicas são descritas nas leituras sugeridas (Patel et al., 2018). Orientações detalhadas para a selecção do microfone e para a medição da intensidade vocal usando sinais acústicos podem ser encontradas nos dois artigos dos autores Švec e Granqvist (2010; 2018). A selecção cuidadosa do microfone é extremamente importante. Os microfones de palco/estúdio têm frequentemente um pico entre 5 e 10 kHz e, portanto, não são adequados para análise acústica. Os microfones dinâmicos/direccionais têm uma curva de sensibilidade dependente da distância. Por conseguinte, para a análise acústica em contextos clínicos e educativos, recomenda-se a utilização de microfones omnidireccionais com uma resposta plana em toda a gama de frequências audíveis.

 

Referências: 

Behlau, M., Madazio, G., Vaiano, T., Pacheco, C., & Badaró, F. (2022). Voice evaluation–contribution of the speech-language pathologist voice specialist–SLP-V: Part B. Acoustic analysis, physical examination and correlation of all steps with the medical diagnoses. Hearing, Balance and Communication, 1-7. 

de Oliveira Florencio, V., Almeida, A. A., Balata, P., Nascimento, S., Brockmann-Bauser, M., & Lopes, L. W. (2021). Differences and Reliability of Linear and Nonlinear Acoustic Measures as a Function of Vocal Intensity in Individuals With Voice Disorders. Journal of Voice. In Press. 

Englert, M., Lima, L., Latoszek, B. B. V., & Behlau, M. (2020). Influence of the voice sample length in perceptual and acoustic voice quality analysis. Journal of Voice. In Press. 

Herbst, C. T. (2017). A review of singing voice subsystem interactions—toward an extended physiological model of “support”. Journal of voice, 31(2), 249-e13. 

Hillenbrand, J. M. (2011). Acoustic analysis of voice: a tutorial. Perspectives on Speech Science and Orofacial Disorders, 21(2), 31-43. 

Howard, D.M. & Murphy, D.T. (2008). Voice Science Acoustics and Recording. Plural Publishing. 

Kiliç, M. A., Öğüt, F., Dursun, G., Okur, E., Yildirim, I., & Midilli, R. (2004). The effects of vowels on voice perturbation measures. Journal of Voice, 18(3), 318-324. 

Koenig, B. E. (1986). Spectrographic voice identification: a forensic survey. The Journal of the Acoustical Society of America, 79(6), 2088-2090. 

Lã, F. M. (2012). Teaching singing and technology. Aspects of singing II-unit in understanding-Diversity in aesthetics, 88-109. 

Lopes, L. Dajer, E. & Camargo, Z. Análise acústica na Clínica Vocal in Lopes, (2019). L., Moreti, F., Ribeiro, L. L., & Pereira, E. C. Fundamentos e atualidades em voz clínica. Thieme Revinter. 31-47. 

Maryn, Y., De Bodt, M., & Roy, N. (2010). The Acoustic Voice Quality Index: toward improved treatment outcomes assessment in voice disorders. Journal of communication disorders, 43(3), 161-174. 

McCoy, S. (2004). Your voice: An Inside View: multimedia voice science and pedagogy. Inside View Press. 

Miller, D. G. (2008). Resonance in singing: Voice building through acoustic feedback. Inside view press. 

Nair, G. (1999). Voice – Tradition and Technology: a state-of-the-art studio. Singual Publishing Group. 

Patel, R. R., Awan, S. N., Barkmeier-Kraemer, J., Courey, M., Deliyski, D., Eadie, T., … & Hillman, R. (2018). Recommended protocols for instrumental assessment of voice: American Speech-Language-Hearing Association expert panel to develop a protocol for instrumental assessment of vocal function. American journal of speech-language pathology, 27(3), 887-905. 

Roubeau, B., Henrich, N. & Castellengo, M. (2009). Laryngeal vibratory mechanisms: the notion of vocal register revisited. Journal of Voice, 23(4), 425-438. 

Stemple, J. C., Roy, N. & Klaben, B. K. (2020). Clinical voice pathology: Theory and management. Plural Publishing. 

Švec, J. G. & Granqvist, S. (2010). Guidelines for selecting microphones for human voice production research. American Journal of Speech-Language Pathology, 19, 356-368. 

Švec, J. G. & Granqvist, S. (2018). Tutorial and Guidelines on Measurement of Sound Pressure Level in Voice and Speech. Journal of Speech, Language and Hearing Research, 61, 441-461. 

Sundberg, J. (1987). The science of the singing voice. Northern Illinois University Press. 

Titze, I. R. & Verdolini-Abbot, K. (2012). Vocology: The science and practice of voice habilitation. The National Center for Voice and Speech. 

Titze, I.R. & Winholtz, W. S. (1993). Effect of microphone type and placement on voice perturbation measurements. Journal of Speech, Language, and Hearing Research, 36(6), 1177-1190. 

Vennard, W. (1967). Singing: the mechanism and the technic. Carl Fischer. 

Welch, G. F., Howard, D. M., Himonides, E., & Brereton, J. (2005). Real-time feedback in the singing studio: an innovatory action-research project using new voice technology. Music Education Research, 7(2), 225-249. 

Welch, G.F. & Sundberg, J. (2002). Solo Voice. In R. Parncutt & G.E. McPherson (eds). The Science and Psychology of Music Performance: creative strategies for teaching and learning. Oxford University Press.