SPETTROGRAFIA – Tertium Auris

[button color=white url=”https://www.marcotonini.org/wordpress/vox/”]VOX[/button][button color=white url=”https://www.marcotonini.org/wordpress/vox/risonanza-vocale/”]RISONANZA VOCALE[/button][button color=white url=”https://www.marcotonini.org/wordpress/vox/suono-glottico/”]SUONO GLOTTICO[/button][button color=white url=”https://www.marcotonini.org/wordpress/vox/importanza-di-f1-e-f2/”]F1 – F2[/button][button color=white url=”https://www.marcotonini.org/wordpress/vox/formante-del-cantante/”]FORMANTE DEL CANTANTE[/button]

LINGUISTICA

FONETICA : FONI = FONOLOGIA : FONEMI

ANALISI AUDIO VOCALE

Tecnica di analisi e interpretazione:

FFT Fast Fourier Transform: trasformata veloce di Fourier

versione ottimizzata della

DFT Discrete Fourier Transform: trasformata discreta di Fourier

FFT => scomposizione di un segnale in una serie di suoni sinusoidali ciascuno con propria frequenza, ampiezza e fase

Nel nostro caso un suono vocale risulterà perciò come somma algebrica di una serie di componenti sinusoidali

Tra le varie rappresentazioni grafico/matematiche del segnale vocale, le più efficaci sono:

SONAGRAMMA

SONAGRAM – SONOGRAM

In ascissa abbiamo il tempo, in ordinata la frequenza, e le linee orizzontali rappresentano le componenti armoniche. In realtà, in questo tipo di rappresentazione bi-dimensionale interviene un terzo parametro, il colore, le cui differenti gradazioni sono in relazione con diverse intensità delle componenti armoniche. Ormai la maggior parte dei software di audio analisi offre dei colormap predefiniti e spesso anche editabili a piacimento.

SPETTROGRAMMA

POWER SPECTRUM – ANALISI DELLA FREQUENZA

In ascissa abbiamo la frequenza e in ordinata abbiamo l’intensità. I picchi verticali rappresentano le componenti armoniche. Nell’immagine abbiamo uno spaccato istantaneo di un evento sonoro in un momento X del suo svolgimento acustico. Notiamo a sinistra alcune componenti armoniche con una certa intensità, destinata a scemare in quelle successive.

Nell’immagine sopra abbiamo la rappresentazione di 1 secondo di rumore; nella parte superiore abbiamo la forma d’onda, in quella inferiore un’immagine confusionale, il suo sonogramma.

Qui abbiamo la medesima forma d’onda con “zoom in” a 12 millisecondi; l’immagine risulta ancora complessivamente irregolare.

Cambiamo segnale audio, qui abbiamo una forma d’onda a dente di sega, 1 secondo a 1500 Hertz (Hz o CPS, cicli per secondo); ciò che notiamo subito è la forma d’onda graficamente compressa – 1500 cicli in pochi centimetri – rappresentata da una banda blu uniforme. Zoomando l’immagine

possiamo notare distintamente i cicli, creste e gole/avvallamenti (cosa sono? guarda sotto), puoi contarne 15 in 10 millisecondi (clicca sull’immagine sopra per ingrandire), infatti 1500 Hz : 1 sec = 15 Hz : 10 msec; qui il sonogramma presenta una serie di bande orizzontali ben distinte, le componenti armoniche, parallele ed equidistanti l’una dall’altra.

Dato ciò possiamo capire che:

un evento acustico che noi definiamo rumore generalmente non è provvisto di frequenza chiaramente distinguibile, il suo sonogramma e forma d’onda risultano irregolari, il suono inarmonico
la frequenza (Hz) viene calcolata in base al numero di ripetizioni delle creste in 1 secondo
se un segnale è periodico (ripetizione regolare delle creste), probabilmente sarà costituito da componenti armoniche
un segnale non periodico è caratterizzato da componenti inarmoniche

per cui:

un segnale periodico produce la sensazione di altezza sonora (pitch)
la percezione di altezza sonora non è così definita se la periodicità del segnale è meno regolare
le componenti armoniche sono tutte multipli interi della frequenza fondamentale F₀ (h₁ o 1° componente armonica)

Aspetto particolare nella serie degli armonici è la relazione tra gli intervalli di ottava; proviamo a considerare un segnale audio a 100 Hz, esso sarà costituito da:

_h1 = 100 Hz
_h2 = 200 Hz
_h3 = 300 Hz
h₄= 400 Hz
e così via…

In questo caso la frequenza di ciascun componente armonico h_n sarà un multiplo della frequenza fondamentale F₀, ovvero h_n = (h₁)n oppure h_n = (F₀)n; il rapporto di ottava tra le componenti armoniche si basa sul rapporto 2:1 tra un armonico h_ne un suo antecedente:

h₁ = 100 Hz
h₂= 200 Hz
h₄= 400 Hz
h₈ = 800 Hz
h₁₆= 1600 Hz
h₃₂ = 3200 Hz
e via a seguire …

Altro esempio nell’immagine successiva:

E ancora, gli armonici in posizione pari sono multipli ottava di un rispettivo antecedente, il 2° è multiplo ottava del 1°, il 4° del 2°, il 6° del 3°, l’8° del 4°, il 10° del 5°, … (rapporto 2:1), mentre gli armonici dispari introducono una frequenza corrispondente a una nuova nota, non ancora apparsa nella serie.

Altra particolarità; con diapason a 440 Hz consideriamo alcuni intervalli, ad esempio di 5°, tralasciando i decimali e approssimando:

mentre la differenza in Hz tra le due frequenze che costituiscono ciascun intervallo varia nei tre esempi, notiamo come il loro rapporto rimanga invece costante; da ciò si evince che per calcolare/confrontare gli intervalli il nostro sistema di codifica della percezione acustica considera il

rapporto

tra le frequenze, non le frequenze a sè stanti. Così noi percepiamo sempre lo stesso intervallo solo se il rapporto tra le frequenze è costante, in questo caso 3:2.

Nei prossimi due video alcuni cenni esplicativi sull’argomento:

[one_half][/one_half][one_half_last][/one_half_last]