Tertium Auris Blog

vocal analysis and sound experimentation

importanza di F1 e F2

formante = concentrazione di energia in una banda frequenziale comprendente una o più componenti armoniche

Alcuni aspetti interessanti della struttura formantica:

vocali.jpg

- i primi due formanti contengono sufficienti informazioni affinchè il nostro sistema di audio-codifica identifichi e classifichi un timbro vocalico

- ciascuna delle 7 vocali della lingua italiana prevede almeno 5 formanti, situati in zone frequenziali ben precise

- la frequenza del primo formante F1 è in relazione con l’ampiezza dell’apertura della boccala

- frequenza del secondo formante F2 è determinata dalle diverse posizioni della lingua

Diamo ora un’occhiata a questa immagine:

sono raffigurate le frequenze dei primi due formanti di tutte e 7 le vocali, con relativo assetto del tratto vocale.

La cosa interessante è che per ogni vocale la posizione dei formanti non cambia pur variando la frequenza che si sta emettendo.

Ciò che fa la differenza è la diversa quantità di informazioni contenute in ciascun formante; nella figura qui a destra si nota come emettendo la stessa vocale <a> su frequenze diverse si determinino identici formanti ciascuno con una quantità diversa di componenti armoniche. Ciò avviene in quanto aumentando la frequenza, il primo armonico si sposta visivamente verso destra, e così tutti gli armonici successivi, che sono suoi multipli interi.

Questo è anche uno dei motivi per cui facciamo più fatica a notare differenze timbriche tra due soprani piuttosto che tra due bassi.

Tornando alla figura di sinistra, Mauro Uberti fa notare una cosa molto interessante: il picco del primo formante aumenta di frequenza dalla <i> fino alla <a>, per poi decrescere e tornare alla posizione di partenza dalla <a> alla <u>.

Il motivo è semplice quanto affascinante: F1 (prima formante) è in relazione anche con l’ampiezza della cavità faringea (dietro la lingua per intenderci), che in effetti, osservando la figura, prima diminuisce e in seguito aumenta.

Georgia State University

Idem dicasi per le posizioni di F2 che si posiziona attorno ai 2700 nella <i> (cavità buccale piccola) e man mano scende fino ai 700 Hz nella <u> (cavità buccale ampia).

 

 

 

 

In quest’altra immagine abbiamo una chiara visione spettrografica di F1 e F2 e loro variazioni per ciascuna vocale:

1142.jpg

Uberti: le sette vocali della lingua italiana sintetizzate per chiarezza di esposizione come se fossero cantate da un basso sulla stessa nota fa1 (= 87,30 Hz): in alto lo spettrogramma dell’esempio vocale; nella colonna sinistra gli schemi degli atteggiamenti articolatori, ricavati da radiografie; nella colonna destra gli spettri delle sette vocali.

Nello spettro di ogni vocale si riconoscono facilmente i gruppi di armonici dall’aspetto di picchi montagnosi, chiamati “formanti”.

Nello spettrogramma le stesse formanti appaiono come annerimento degli stessi gruppi di armonici.

Per contro è interessante notare, come già menzionato, come al variare della frequenza di una medesima vocale i formanti cadano sempre nelle medesime bande frequenziali:

1143.jpg

In pratica la posizione invariabile dei formanti mi garantisce il riconoscimento e l’identificazione timbrico-vocale a prescindere dall’altezza del suono emesso; infatti se campionassimo una qualsiasi frequenza vocale e poi con la nostra bella tastierina MIDI suonassimo una bella scala ascendente dalla nota più bassa alla più acuta, sentiremmo un timbro che da muggito si trasforma in vocina da polmoni pieni di elio.

Ciò perchè mutando il pitch cambia anche la distanza frequenziale tra i formanti. Questo è uno dei motivi per cui uno strumento campionato deve essere costituito da un campione per ogni singola nota: si campiona un do suonato da un pianoforte e si assegna al tasto do corrispondente, poi si suona un do#, si campiona e si assegna al tasto do#, e via dicendo.

Ecco un esempio del comportamento formantico umano, prima con <i>, poi con <ò>, e le zone formantiche rimangono invariate, per finire col terzo esempio, una <i> compressa e dilatata digitalmente in modo progressivo, e le zone formantiche seguono l’andamento (gli esempi partono al 7° sec.):

Graficamente vi è un modo molto semplice per coordinare l’azione dei primi due formanti F1 e F2 il cui rapporto determinerà le diverse vocali, ovvero si prende un piano cartesiano e sull’asse x si dispongono le frequenze di F1 e sull’asse y le frequenze di F2, in questa maniera:

f1-f2.png

ho cerchiato in rosso molto approssimativamente le coordinate dei primi due formanti, nel senso che ad esempio la vocale <è> emessa da voce liricamente ben impostata potrebbe risultare come F1=1400 Hz e F2=1500 Hz.

Da questo diagramma si evince come per trasformare la <u> in <i> sia sufficiente spostare la banda di F2 da 800 Hz verso i 2300 Hz, mentre F1 rimane ancorato ai 350 Hz.

Riflettendoci appare chiaro, infatti nel passaggio da una vocale all’altra il vocal tract assume forme diverse grazie ai movimenti di labbra, lingua, palato molle e spostamenti della laringe e della mandibola, venendosi a creare quindi al suo interno cavità più o meno ampie, la dimensione delle quali determina il rinforzo di certi gruppi di armonici (formanti) piuttosto che di altri.

E qui viene il bello; F4, che contribuisce a quel rinforzo chiamato extra formante di canto di cui abbaiamo già accennato e di cui c’è ancora molto da dire, aumenta la sua intensità grazie all’abbassamento verticale della laringe, e io non mi stancherò mai di ripeterlo, non fino all’atteggiamento tipico dello sbadiglio ma a quello del pianto.