Síntesi additiva

La síntesi additiva és una tècnica de síntesi de so que crea timbre afegint ones sinusoïdals.^[1]^[2]

El timbre dels instruments musicals es pot considerar a la llum de la teoria de Fourier com a múltiples parcials o armònics harmònics o inharmònics. Cada parcial és una ona sinusoïdal de diferent freqüència i amplitud que s'infla i decau amb el temps a causa de la modulació d'un embolcall ADSR o d'un oscil·lador de baixa freqüència.

La síntesi additiva genera so de manera més directa afegint la sortida de múltiples generadors d'ona sinusoïdal. Les implementacions alternatives poden utilitzar taules d'ona precalculades o la transformada de Fourier ràpida inversa.

Additive synthesis example

A bell-like sound generated by additive synthesis of 21 inharmonic partials

Problemes de reproducció? Vegeu l'ajuda

Explicació

Els sons que s'escolten a la vida quotidiana no es caracteritzen per una sola freqüència. En canvi, consisteixen en una suma de freqüències sinusoïdals pures, cadascuna amb una amplitud diferent. Quan els humans sentim aquestes freqüències simultàniam ent, podem reconèixer el so. Això és cert tant per als sons "no musicals" (p. ex. esquitxades d'aigua, cruixent de fulles, etc.) com per als "sons musicals" (p. ex. una nota de piano, un tuit d'ocell, etc.). Aquest conjunt de paràmetres (freqüències, les seves amplituds relatives i com canvien les amplituds relatives al llarg del temps) estan encapsulats pel timbre del so. L'anàlisi de Fourier és la tècnica que s'utilitza per determinar aquests paràmetres tímbrics exactes a partir d'un senyal de so global; per contra, el conjunt resultant de freqüències i amplituds s'anomena sèrie de Fourier del senyal de so original.

En el cas d'una nota musical, la freqüència més baixa del seu timbre es designa com a freqüència fonamental del so. Per simplicitat, sovint diem que la nota toca a aquesta freqüència fonamental (per exemple, "C mig és 261,6 Hz"), ^[4] tot i que el so d'aquesta nota també consta de moltes altres freqüències. El conjunt de les freqüències restants s'anomena armònics (o harmònics, si les seves freqüències són múltiples enters de la freqüència fonamental) del so.^[5] És a dir, només la freqüència fonamental és responsable de l'altura de la nota, mentre que els armònics defineixen el timbre del so. Els armònics d'un piano que toca do mitjà seran força diferents dels d'un violí que toca la mateixa nota; això és el que ens permet diferenciar els sons dels dos instruments. Fins i tot hi ha diferències subtils de timbre entre diferents versions d'un mateix instrument (per exemple, un piano vertical vs. un piano de cua).

La síntesi additiva pretén explotar aquesta propietat del so per construir el timbre des de la base. Sumant freqüències pures (ones sinusoïdals) de freqüències i amplituds variables, podem definir amb precisió el timbre del so que volem crear.

Definicions

La síntesi additiva harmònica està estretament relacionada amb el concepte de sèrie de Fourier que és una manera d'expressar una funció periòdica com la suma de funcions sinusoïdals amb freqüències iguals a múltiples enters d'una freqüència fonamental comuna. Aquests sinusoides s'anomenen harmònics, armònics o, en general, parcials. En general, una sèrie de Fourier conté un nombre infinit de components sinusoïdals, sense límit superior a la freqüència de les funcions sinusoïdals i inclou una component DC (una amb freqüència de 0 Hz). Les freqüències fora del rang audible humà es poden ometre en la síntesi additiva. Com a resultat, només un nombre finit de termes sinusoïdals amb freqüències que es troben dins del rang audible es modelen en síntesi additiva.

Resíntesi additiva mitjançant la concatenació de marcs de timbre:

Concatenació amb fundiments creuats (a Synclavier)

Concatenació amb interpolació d'embolcall espectral (a Vocaloid)

Aplicacions

La síntesi additiva s'utilitza en instruments musicals electrònics. És la principal tècnica de generació de so utilitzada pels òrgans eminents.

En la investigació lingüística, la síntesi additiva harmònica es va utilitzar a la dècada de 1950 per reproduir espectrogrames de parla modificats i sintètics.^[6]

Més tard, a principis de la dècada de 1980, es van dur a terme proves d'escolta amb parla sintètica sense senyals acústics per avaluar-ne la importància. Les freqüències i les amplituds de formants variables en el temps derivades de la codificació predictiva lineal es van sintetitzar additivament com a xiulets de to pur. Aquest mètode s'anomena síntesi sinusoïdal.^[7]^[8] També se sap que el modelatge sinusoïdal compost (CSM) utilitzat en una funció de síntesi de veu de cant a Yamaha CX5M (1984), utilitza un enfocament similar que es va desenvolupar de manera independent durant el període.^[9]^[10] Aquests mètodes es caracteritzen per l'extracció i recomposició d'un conjunt de pics espectrals significatius corresponents als diversos modes de ressonància que es produeixen a la cavitat bucal i nasal, des del punt de vista de l'acústica. Aquest principi també es va utilitzar en un mètode de síntesi de modelització física, anomenat síntesi modal.^[11]

Referències

↑ Julius O. Smith III. «Additive Synthesis (Early Sinusoidal Modeling)» (en anglès). [Consulta: 14 gener 2012].
↑ Gordon Reid Sound on Sound, January 2000 [Consulta: 14 gener 2012].
↑ McAulay, R. J.; Quatieri, T. F. The Lincoln Laboratory Journal, 1, 2, 1988, pàg. 153–167 [Consulta: 9 desembre 2013].
↑ Mottola, Liutaio. «Table of Musical Notes and Their Frequencies and Wavelengths» (en anglès), 31-05-2017.
↑ «Fundamental Frequency and Harmonics» (en anglès).
↑ Cooper, F. S.; Liberman, A. M.; Borst, J. M. Proc. Natl. Acad. Sci. U.S.A., 37, 5, 5-1951, pàg. 318–25. Bibcode: 1951PNAS...37..318C. DOI: 10.1073/pnas.37.5.318. PMC: 1063363. PMID: 14834156 [Consulta: free].
↑ Remez, R.E.; Rubin, P.E.; Pisoni, D.B.; Carrell, T.D. Science, 212, 4497, 1981, pàg. 947–950. Bibcode: 1981Sci...212..947R. DOI: 10.1126/science.7233191. PMID: 7233191.
↑ Rubin, P.E. «Còpia arxivada». Internal Memorandum, 1980. Arxivat de l'original el 2021-08-29 [Consulta: 27 juny 2024].
↑ Sagayama, S. «Duality theory of composite sinusoidal modeling and linear prediction». A: ICASSP '86. IEEE International Conference on Acoustics, Speech, and Signal Processing (en anglès). 11. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '86., 1986, p. 1261–1264. DOI 10.1109/ICASSP.1986.1168815.
↑ Itakura, F. «Còpia arxivada». April 2004, 3, 2004, pàg. III–2077–2082. Arxivat de l'original el 2022-05-24 [Consulta: 27 juny 2024]. «6. Composite Sinusoidal Modeling(CSM) In 1975, Itakura proposed the line spectrum representation (LSR) concept and its algorithm to obtain a set of parameters for new speech spectrum representation. Independently from this, Sagayama developed a composite sinusoidal modeling (CSM) concept which is equivalent to LSR but give a quite different formulation, solving algorithm and synthesis scheme. Sagayama clarified the duality of LPC and CSM and provided the unified view covering LPC, PARCOR, LSR, LSP and CSM, CSM is not only a new concept of speech spectrum analysis but also a key idea to understand the linear prediction from a unified point of view. ...»
↑ Adrien, Jean-Marie. «The missing link: modal synthesis». A: Giovanni de Poli. Representations of Musical Signals (en anglès). Cambridge, MA: MIT Press, 1991, p. 269–298. ISBN 978-0-262-04113-3.

[JOS_Additive-1] Julius O. Smith III. «Additive Synthesis (Early Sinusoidal Modeling)» (en anglès). [Consulta: 14 gener 2012].

[2] Gordon Reid Sound on Sound, January 2000 [Consulta: 14 gener 2012].

[MQ1988-3] McAulay, R. J.; Quatieri, T. F. The Lincoln Laboratory Journal, 1, 2, 1988, pàg. 153–167 [Consulta: 9 desembre 2013].

[4] Mottola, Liutaio. «Table of Musical Notes and Their Frequencies and Wavelengths» (en anglès), 31-05-2017.

[5] «Fundamental Frequency and Harmonics» (en anglès).

[cooper1951-6] Cooper, F. S.; Liberman, A. M.; Borst, J. M. Proc. Natl. Acad. Sci. U.S.A., 37, 5, 5-1951, pàg. 318–25. Bibcode: 1951PNAS...37..318C. DOI: 10.1073/pnas.37.5.318. PMC: 1063363. PMID: 14834156 [Consulta: free].

[remez81-7] Remez, R.E.; Rubin, P.E.; Pisoni, D.B.; Carrell, T.D. Science, 212, 4497, 1981, pàg. 947–950. Bibcode: 1981Sci...212..947R. DOI: 10.1126/science.7233191. PMID: 7233191.

[rubin80-8] Rubin, P.E. «Còpia arxivada». Internal Memorandum, 1980. Arxivat de l'original el 2021-08-29 [Consulta: 27 juny 2024].

[sagayama86-9] Sagayama, S. «Duality theory of composite sinusoidal modeling and linear prediction». A: ICASSP '86. IEEE International Conference on Acoustics, Speech, and Signal Processing (en anglès). 11. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '86., 1986, p. 1261–1264. DOI 10.1109/ICASSP.1986.1168815.

[itakura04-10] Itakura, F. «Còpia arxivada». April 2004, 3, 2004, pàg. III–2077–2082. Arxivat de l'original el 2022-05-24 [Consulta: 27 juny 2024]. «6. Composite Sinusoidal Modeling(CSM) In 1975, Itakura proposed the line spectrum representation (LSR) concept and its algorithm to obtain a set of parameters for new speech spectrum representation. Independently from this, Sagayama developed a composite sinusoidal modeling (CSM) concept which is equivalent to LSR but give a quite different formulation, solving algorithm and synthesis scheme. Sagayama clarified the duality of LPC and CSM and provided the unified view covering LPC, PARCOR, LSR, LSP and CSM, CSM is not only a new concept of speech spectrum analysis but also a key idea to understand the linear prediction from a unified point of view. ...»

[adrien1991-11] Adrien, Jean-Marie. «The missing link: modal synthesis». A: Giovanni de Poli. Representations of Musical Signals (en anglès). Cambridge, MA: MIT Press, 1991, p. 269–298. ISBN 978-0-262-04113-3.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]