Processament de senyals d'àudio
El processament de senyals d'àudio és un subcamp del processament de senyals que s'ocupa de la manipulació electrònica dels senyals d'àudio. Els senyals d'àudio són representacions electròniques d'ones sonores : ones longitudinals que viatgen a través de l'aire, que consisteixen en compressions i rarefaccions. L'energia continguda en els senyals d'àudio o el nivell de potència sonora es mesura normalment en decibels. Com que els senyals d'àudio es poden representar en format digital o analògic, el processament es pot produir en qualsevol dels dos dominis. Els processadors analògics operen directament sobre el senyal elèctric, mentre que els processadors digitals operen matemàticament en la seva representació digital.
Història
[modifica]La motivació per al processament de senyals d'àudio va començar a principis del segle XX amb invents com el telèfon, el fonògraf i la ràdio que permetien la transmissió i l'emmagatzematge de senyals d'àudio. El processament d'àudio era necessari per a les primeres emissions de ràdio, ja que hi havia molts problemes amb els enllaços entre l'estudi i el transmissor.[1] La teoria del processament del senyal i la seva aplicació a l'àudio es va desenvolupar en gran manera als Bell Labs a mitjans del segle XX. Els primers treballs de Claude Shannon i Harry Nyquist sobre la teoria de la comunicació, la teoria del mostreig i la modulació de codi de pols (PCM) van establir les bases del camp. El 1957, Max Mathews es va convertir en la primera persona a sintetitzar àudio des d'un ordinador, donant lloc a la música per ordinador.
Els principals desenvolupaments en codificació digital d'àudio i compressió de dades d'àudio hi ha la modulació de codi d'impuls diferencial (DPCM) de C. Chapin Cutler als laboratoris Bell el 1950, la codificació predictiva lineal (LPC) de Fumitada Itakura ( Universitat de Nagoya ) i Shuzo Saito ( Nippon Telegraph and Telephone ) el 1966, [2]la DPCM adaptativa (ADPCM) de P. Cummiskey, Nikil S. Jayant i James L. Flanagan de Bell Labs el 1973, [3] la codificació de la transformada de cosinus discret (DCT) de Nasir Ahmed, T. Natarajan i KR Rao el 1974, [4] la codificació de cosinus discret modificat transformació (MDCT) de JP Princen, AW Johnson i AB Bradley a la Universitat de Surrey a 1987. LPC és la base de la codificació perceptiva i s'utilitza àmpliament en codificació de veu, [5] mentre que la codificació MDCT s'utilitza àmpliament en formats moderns de codificació d'àudio com MP3 [6] i Advanced Audio Coding (AAC).[7]
Processament analògic del so
[modifica]Un senyal d'àudio analògic és un senyal continu representat per una tensió o corrent elèctric anàlegs a les ones sonores de l'aire. El processament analògic d'un senyal analògic implica alterar físicament el senyal continu canviant la tensió, el corrent o la càrrega mitjançant circuits elèctrics.
Històricament, abans de l'arribada de l'electrònica digital generalitzada, el "processament analògic del senyal" era l'únic mètode per manipular un senyal. Des d'aleshores, a mesura que els ordinadors i el programari s'han tornat més capaços i assequibles, el "processament digital del senyal" s'ha convertit en el mètode preferit. No obstant això, dins de l'entorn de les aplicacions musicals, la tecnologia analògica sovint encara és desitjable i es fa servir, ja que permet generar respostes no lineals que són difícils de replicar amb filtres digitals.
Processament digital del so
[modifica]Una convertidor analògic-digital permet convertir la forma d'ona d'àudio analògica en una seqüència de símbols, normalment nombres binaris.emmagatzemats en registres o zones de memòria d'un ordinador que no tenen res a veure amb el que es coneix com senyal digital. Això permet processar el senyal analògic mitjançant circuits digitals com ara un processador digital del senyal, un microprocessador o un ordinador de propòsit general. La majoria dels sistemes d'àudio moderns utilitzen un enfocament digital, ja que les tècniques de processament digital del senyal són molt més potents i eficients que les tècniques de processament analògic del senyal.[8]
Aplicacions
[modifica]Els mètodes de processament i les àrees d'aplicació inclouen emmagatzematge, compressió de dades, recuperació d'informació musical, processament de la parla, localització, detecció acústica, transmissió, cancel·lació de soroll, empremtes digitals acústiques, reconeixement d'àudio, síntesi i millora (per exemple, equalització, filtratge, compressió de nivell, eco i reverberació), eliminació o addició de sons, etc.).
Transmissió d'àudio
[modifica]El processament del senyal d'àudio s'utilitza quan s'emeten senyals d'àudio per millorar-ne la fidelitat o optimitzar l'amplada de banda o la latència. En aquest domini, el processament d'àudio més important té lloc just abans del transmissor. El processador d'àudio aquí ha d'evitar o minimitzar la sobremodulació, compensar els transmissors no lineals (un problema potencial amb la difusió d'ona mitjana i d'ona curta ) i ajustar la sonoritat general al nivell desitjat.
Control actiu del soroll
[modifica]El control actiu del soroll és una tècnica dissenyada per reduir el so no desitjat. En crear un senyal idèntic al soroll no desitjat però amb la polaritat oposada, els dos senyals es cancel·len a causa d'una interferència destructiva.
Síntesi d'àudio
[modifica]La síntesi d'àudio és la generació electrònica de senyals d'àudio. Un instrument musical que aconsegueix això s'anomena sintetitzador. Els sintetitzadors poden imitar sons o generar-ne de nous. La síntesi d'àudio també s'utilitza per generar parla humana mitjançant la síntesi de veu.
Efectes d'àudio
[modifica]Els efectes d'àudio alteren el so d'un instrument musical o d'una altra font d'àudio. Els efectes comuns inclouen la distorsió, sovint utilitzada amb la guitarra elèctrica en el blues elèctric i la música rock ; efectes dinàmics com els pedals de volum i els compressors, que afecten la sonoritat; filtres com els pedals wah-wah i els equalitzadors gràfics, que modifiquen els rangs de freqüència; efectes de modulació, com ara chorus, flangers i phasers ; efectes de to com els canvis de to ; i efectes de temps, com la reverb i el retard, que creen sons ressò i emulen el so de diferents espais.
Músics, enginyers d'àudio i productors discogràfics utilitzen unitats d'efectes durant les actuacions en directe o a l'estudi, normalment amb guitarra elèctrica, baix, teclat electrònic o piano elèctric. Tot i que els efectes s'utilitzen amb més freqüència amb instruments elèctrics o electrònics, es poden utilitzar amb qualsevol font d'àudio, com ara instruments acústics, bateria i veu.[9][10]
Audició per ordinador
[modifica]L'audició per ordinador (CA) o escolta automàtica és el camp general d'estudi dels algorismes i sistemes per a la interpretació d'àudio mitjançant màquines.[11][12] Com que la noció del que significa que una màquina "escolta" és molt àmplia i una mica vaga, l'audició per ordinador intenta reunir diverses disciplines que originalment tractaven problemes específics o tenien una aplicació concreta en ment. L'enginyer Paris Smaragdis, entrevistat a Technology Review, parla d'aquests sistemes — "programari que utilitza el so per localitzar persones que es mouen per habitacions, controlar la maquinària per avaries imminents o activar càmeres de trànsit per gravar accidents".
Inspirat en models d'audició humana, CA s'ocupa de qüestions de representació, transducció, agrupació, ús del coneixement musical i semàntica general del so amb el propòsit de realitzar operacions intel·ligents sobre senyals d'àudio i música per part de l'ordinador. Tècnicament, això requereix una combinació de mètodes dels camps del processament de senyals, modelització auditiva, percepció i cognició musicals, reconeixement de patrons i aprenentatge automàtic, així com mètodes més tradicionals d'intel·ligència artificial per a la representació del coneixement musical.[13][14]
Referències
[modifica]- ↑ Atti, Andreas Spanias, Ted Painter, Venkatraman. Audio signal processing and coding. [Online-Ausg.]. Hoboken, NJ: John Wiley & Sons, 2006, p. 464. ISBN 0-471-79147-4.
- ↑ Gray, Robert M. Found. Trends Signal Process., 3, 4, 2010, pàg. 203–303. DOI: 10.1561/2000000036. ISSN: 1932-8346 [Consulta: free].
- ↑ Cummiskey, P.; Jayant, Nikil S.; Flanagan, J. L. The Bell System Technical Journal, 52, 7, 1973, pàg. 1105–1118. DOI: 10.1002/j.1538-7305.1973.tb02007.x. ISSN: 0005-8580.
- ↑ Nasir Ahmed; T. Natarajan; Kamisetty Ramamohan Rao IEEE Transactions on Computers, C-23, 1, 1-1974, pàg. 90–93. DOI: 10.1109/T-C.1974.223784.
- ↑ Schroeder, Manfred R. «Bell Laboratories». A: Acoustics, Information, and Communication: Memorial Volume in Honor of Manfred R. Schroeder. Springer, 2014, p. 388. ISBN 9783319056609.
- ↑ Guckert, John. «The Use of FFT and MDCT in MP3 Audio Compression». University of Utah, Spring 2012. Arxivat de l'original el 2022-10-09. [Consulta: 14 juliol 2019].
- ↑ Brandenburg, Karlheinz. «MP3 and AAC Explained». Arxivat de l'original el 2017-02-13.
- ↑ Zölzer, Udo. Digital Audio Signal Processing. John Wiley and Sons, 1997. ISBN 0-471-97226-6.
- ↑ Horne, Greg. Complete Acoustic Guitar Method: Mastering Acoustic Guitar c. Alfred Music, 2000, p. 92. ISBN 9781457415043.
- ↑ Yakabuski, Jim. Professional Sound Reinforcement Techniques: Tips and Tricks of a Concert Sound Engineer. Hal Leonard, 2001, p. 139. ISBN 9781931140065.
- ↑ Machine Audition: Principles, Algorithms and Systems. IGI Global, 2011. ISBN 9781615209194.
- ↑ «Machine Audition: Principles, Algorithms and Systems».
- ↑ Tanguiane (Tangian), Andranick. Artificial Perception and Music Recognition. 746. Berlin-Heidelberg: Springer, 1993 (Lecture Notes in Artificial Intelligence). ISBN 978-3-540-57394-4.
- ↑ Tanguiane (Tanguiane), Andranick Music Perception, 11, 4, 1994, pàg. 465–502. DOI: 10.2307/40285634. JSTOR: 40285634.
Bibliografia
[modifica]- Rocchesso, Davide. Introduction to Sound Processing, March 20, 2003.
- Wilmering, Thomas; Moffat, David; Milo, Alessia; Sandler, Mark B. Applied Sciences, 10, 3, 2020, pàg. 791. DOI: 10.3390/app10030791 [Consulta: free].