Del tutto inutile – 2

Ho deciso, per queste inutilità il metodo di compressione adottato alzerà inevitabilmente anche il pitch.

Ecco l’intero Tannhäuser di Wagner, compresso a circa 2 secondi.

 

5 thoughts on “Del tutto inutile – 2”

  1. Non alza il pitch, lo distrugge.
    Non puoi fare un esperimento del genere perché non si può fare.
    Per trasporre mantenendo il pitch ma non la durata, il software deve togliere dal segnale dei pezzettini di onda. Normalmente lui usa una finestra abbastanza grande, tipo 50/60 msec, tale da tenere dentro almeno un ciclo della frequenza più bassa.
    Poi ne tiene 1 ogni k, dove k è calcolato in base al rapporto dei tempi (per ridurre le durate a metà ne tiene 1 ogni 2, per arrivare a 1/4, 1 ogni 4, etc).
    Gli altri sono tolti e i rimanenti sono collegati con un piccolo crossfade che genera una distorsione.
    Ma al di là della distorsione, quello che conta è che qui, per ridurre il tempo anche solo a 1/100 dell’originale, tieni solo 1 frammento su 100, cioè 50 msec ogni 5000 msec cioè 5 sec.
    In pratica tu prendi 50 msec ogni 5 sec: il segnale ne esce completamente distrutto, quindi tu non ascolti un segnale compresso, ma un ex segnale.
    E questo solo con una compressione 1/100 cioè 60 sec -> 0.6 sec. Se vai a 10 min -> 0.6 sec prendi un frammento su 1000.
    L’unico modo per ottenere una versione compressa un po’ più credibile sarebbe risintetizzare la partitura con le durate appositamente ridotte, per es: metto la partitura in un sequencer e porto il metronomo a MM * 1000 (se si potesse) oppure riduco le durate a 1/1000. Ma anche questo non si può fare perché allora una nota di 1 sec durerebbe 1 msec e in questo tempo non posso suonare una nota sotto a 1000 Hz perché, percezione a parte, non ci sta neanche 1 ciclo di onda.
    Quindi questa compressione semplicemente non si può fare.
    Ben diverso, invece, è il caso dell’espansione. Si può fare quanto si vuole perché qui non si toglie, ma si aggiunge. Per raddoppiare le durate il software ripete 2 volte ogni frammento. Per allungare tutto di un fattore 1000, si ripete 1000 volte ogni frammento con apposito crossfade. C’è una piccola distorsione, ma se il software è bravo lo fa. L’unico problema è la risoluzione che crea dei gradini su cose come i glissati.

  2. No, un momento, io ho compresso la durata, con conseguente alterazione del pitch e perdita di frequenze udibili, diversamente è ovvio che l’onda sarebbe stata deteriorata. Ma non l’ho detto per rimanere coerente col titolo del post.

  3. scusa, ma è lo stesso.
    quanto dura il Tannhäuser? mi pare circa 3 ore = 180 min = 10800 sec
    ora se lo comprimi a 2 sec senza preservare le altezze, il software fa 10800 / 2 = 5400.
    Questo è il fattore di trasposizione.
    Ragionando nel dominio del tempo, il software prende un campione ogni 5400.
    Ragionando in quello delle frequenze significa che la più bassa frequenza udibile, 20 Hz, diventa 108000 Hz (cento-ottomila).
    Se si facesse in analogico non sentiresti niente. In digitale, siccome esiste il foldover, la frequenza continua a rimbalzare finché non ricade dentro la finestra di Nyquist (SR/2) e il risultato è che quello che si sente non è minimamente correlato con il segnale originale.

  4. Non mi sono spiegato.
    E’ chiaro come tale procedimento sia paragonabile, per capirci, a un effetto tipo stroboscopico. Si perdono una moltitudine di frammenti, frequenze, e non solo, quelle che rimangono vengono alterate in quanto si lavora in digitale.
    Il mio intende essere un approccio concettuale e non empirico.
    Volendo fare un’analogia “concettuale e non analogico/digitale” tra udito e visione, è come se aumentassi progressivamente la velocità di scorrimento di una video-pellicola. Ad un certo punto, dato il tempo di risposta alla luce dei nostri fotorecettori che varia tra i 20 e i 200 millisecondi, entrerebbe inevitabilmente in gioco l’effetto stroboscopico e il filmato tenderebbe al bianco-e-nero.
    Anche in questo caso perderei una marea di frequenze con alterazione di buona parte di esse. Il risultato non corrisponderebbe minimamente all’originale.
    Eppure quando anni fa vidi “Un angelo alla mia tavola” di Jane Champion in circa 1 minuto, a livello cosciente non visualizzai praticamente nulla, se non una continua macchia grigiastra intervallata da qualche immagine sfuocata e lo stesso effetto audio oggetto del post. Non mi affascinò il risultato, ma molto l’idea. La stessa della serie “Del tutto inutile”.

    @ Mauro Ghilardini:
    per quanto riguarda Nyquist, la frequenza di campionamento SR (sampling rate) di un segnale audio deve corrispondere almeno al doppio della sua frequenza massima. Pensa allo standard dei CD audio: essi accettano solo tracce stereo a 16 bit e SR 44.100 Hz, che se noti è poco più del doppio della massima frequenza umanamente udibile, 20.000 Hz. Se, come ha giustamente detto Mauro Graziani, un segnale supera questa soglia non lo avvertiamo più, ma esso esiste, e se lo convertiamo digitalmente esso rimbalza a specchio ritornando sotto la soglia udibile, sfalsando completamente il segnale originale.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s