Podemos emitir sons muito diferentes com a nossa voz e, em comparação com as novas tecnologias, os seres humanos são muito melhores a compreender não só o que é dito, mas também como é dito. A voz tem uma vasta gama de comportamentos, por exemplo, pode passar de notas graves para notas agudas e de notas graves para notas agudas.  Além disso, os indivíduos têm pregas vocais e tractos vocais tão diferentes uns dos outros como os nossos rostos. Estas diferenças estão também impressas no som e noutros sinais que podemos obter de uma voz.

Esta grande variabilidade faz com que a voz seja um canal de comunicação rico e maravilhoso. Infelizmente, ao tentar obter métricas físicas através de sinais e imagens vocais, não é aconselhável atribuir uma determinada interpretação a uma única medida, uma vez que todas as métricas vocais mudam com o nível de som e/ou a frequência fundamental. Um exemplo pode ser visto na Figura 1.

Figura 1. São mostrados 5 mapas vocais, de um cantor de coro amador sem problemas de saúde, realizando exercícios piano-forte-piano numa extensão limitada a uma oitava. Pode ser útil imaginar-los como 5 camadas de um mapa vocal. É apresentada a média das centenas de milhares de ciclos fonatórios gravados num intervalo de 6 minutos. N.B.: EGG = electroglotografía; dEGG = derivativa da forma de onda do EGG; fo = frequência fundamental, medida em Hertz; SPL = nível de pressão sonora medida em décibeis (dados de Selamtzis & Sternström, 2017). 

Nos mapas apresentados, vemos seis métricas codificadas por cores extraídas do sinal EGG e dos sinais de áudio, todos retirados de uma única gravação da mesma pessoa. Mesmo que a tarefa seja simplesmente cantar a vogal /a/ numa gama limitada de tons, é evidente que as medições variam consideravelmente na direcção vertical (representando o nível sonoro) e, em alguns aspectos, também na horizontal (representando a frequência fundamental). Por isso, quando apresentamos os resultados das medições vocais, é importante apresentar também os dados calibrados de SPL e fo. Se pedirmos a essa pessoa para realizar a mesma tarefa novamente, o mapa será muito semelhante, a menos que algo tenha mudado na sua voz entre as medições. Isto significa que podemos ver os efeitos de uma intervenção. Se pedirmos a outra pessoa para efectuar a mesma tarefa, o mapa será muito menos semelhante. Isto significa que, em geral, os efeitos das intervenções só podem ser avaliados directamente na mesma pessoa.

Há muito tempo que existe um tipo especial de mapa vocal, o perfil de alcance vocal (VRP; fonetograma na literatura antiga) (Ternström, Pabon & Södersten, 2016). Um VRP é um mapa vocal adquirido para determinar a gama vocal mais ampla que uma pessoa é capaz de produzir: os limites que pode atingir em volumes mais baixos e mais altos, e os tons mais baixos e mais altos. Normalmente, apenas é avaliado o contorno ou “linha de costa” desta “região atingível”. Existe uma grande quantidade de literatura dedicada à derivação e interpretação destes contornos. A recolha fiável dos extremos requer formação e uma boa quantidade de tempo na sessão de registo.  Se não for correctamente recolhida, pode também ser outra fonte de variação.

Há coisas muito diferentes que podem correr mal na voz e, embora as diferentes patologias mostrem formas diferentes no sinal, é bastante difícil separar as causas dos efeitos. A grande variabilidade e interdependência entre métricas significa, por exemplo, que não podemos esperar ser capazes de discriminar com exactidão entre vozes normais e patológicas. Se não tivermos em conta os efeitos de SPL e fo, os dados conterão uma grande quantidade de variação irrelevante. Por outras palavras, não podemos simplesmente obter medidas como o equilíbrio do espectro, ou o Quociente de Contacto EGG, ou o Cepstral Smoothed Peak CPPS), em algumas vogais sustentadas num tom e volume “confortáveis” (ou seja, não específicos), e depois dar um veredicto sobre se a voz é saudável ou não. Seria como avaliar a fotografia do rosto de uma pessoa através de alguns pixéis. Isto explica porque é que décadas de investigação concluíram que o valor probatório de uma única medição é fraco, especialmente quando comparado com indivíduos em que o SPL e o fo não são tidos em conta. Muitas vezes, não porque as medidas sejam inadequadas, mas porque não as recolhemos ou agrupámos adequadamente.  O mapeamento vocal é um método através do qual a SPL e o fo são constantemente tidos em conta na realização de tarefas vocais; são recolhidos muito mais dados para cada indivíduo e pode ser efectuada a covariação das diferentes medidas. 

O efeito das intervenções pode ser visto fazendo mapas pré e pós, e construindo um novo mapa mostrando as diferenças, como na Figura 2, que mostra o equilíbrio do espectro (SB) do sinal do microfone em decibéis, numa escala de cores. Um cantor treinado do sexo masculino efectuou um exercício suave-forte-suave, primeiro normalmente, depois enquanto fonava através de uma flow-ball, e imediatamente a seguir sem a flow-ball (Lã & Ternström, 2020). Não é possível efectuar um mapeamento relevante durante a tarefa com a flow-ball, porque o SPL muda drasticamente.

Figura 2. Mapas do equilíbrio do espectro pré-intervenção, pós-intervenção e a diferença, para facilitar a comparação ao longo da intervenção (datos de Lã & Ternström, 2020).

Os mapas antes e depois são bastante semelhantes, mas o mapa da direita mostra as diferenças após a intervenção. A cor verde indica aumento e a cor vermelha indica diminuição, no caso do SB. Vemos que o SB é consistentemente aumentado (verde: som vocal mais brilhante) com voz em baixo volume, abaixo de 80 dB, e reduzido (vermelho) com voz em volume alto elevado. Este efeito teria sido impossível de demonstrar de forma convincente com apenas algumas vogais sustentadas. Actualmente, prossegue o trabalho de validação da metodologia destes mapas de diferenças.

O mapa de vogais também pode ser utilizado como uma ferramenta de feedback visual em tempo real, mostrando ao paciente ou ao estudante como as propriedades da sua voz variam no momento. Isto é muito apreciado pelos participantes, que muitas vezes se divertem a “pintar” com a sua voz e, ao mesmo tempo, tornam-se mais conscientes de como as suas vozes funcionam e como mudam ao longo do treino ou do tratamento.

O Laboratório de Voz da UNED é pioneiro na utilização do mapeamento de voz e está a contribuir para o desenvolvimento contínuo deste método promissor, em estreita colaboração com os investigadores que lideram o seu desenvolvimento.


Texto de Sten Ternström e Peter Pabon



Leituras adicionais: 

Lã, F.M.B. & Ternström (2020). Flow ball-assisted voice training: immediate effects on vocal fold contacting. Biomedical Signal Processing and Control,62: 102064. 

Pabon, P. (2018). Mapping Individual Voice Quality over the Voice Range: the measurement paradigm of the voice range profile. Doctoral Thesis in Speech and Music Communication, KTH, Stockholm, Sweden. 

Selamtzis, A. & Ternström, S. (2017). Investigation of the relationship between electroglottogram waveform, fundamental frequency and sound pressure level using clustering. Journal of Voice, 31(4): 393-400. 

Tersntröm, S., Paon, P. & Sodersten, M. (2016). The Vocie Range Profile: Its function, applications, pitfalls and potential. Acta Acustica United with Acustica, 102(2): 268-283.