Vés al contingut

Codificació de subbandes

De la Viquipèdia, l'enciclopèdia lliure
Diagrama de flux del senyal de codificació i descodificació de subbandes

En el processament de senyals, la codificació de subbandes (SBC) és qualsevol forma de codificació de transformació que trenca un senyal en diverses bandes de freqüència diferents, normalment utilitzant una transformada de Fourier ràpida, i codifica cadascuna independentment. Aquesta descomposició és sovint el primer pas en la compressió de dades per a senyals d'àudio i vídeo.[1]

SBC és la tècnica bàsica utilitzada en molts algorismes populars de compressió d'àudio amb pèrdues, inclòs MP3.[2]

Codificació de senyals d'àudio

[modifica]

La manera més senzilla de codificar digitalment senyals d'àudio és la modulació de codi de pols (PCM), que s'utilitza en CD d'àudio, enregistraments DAT, etc. La digitalització transforma els senyals continus en discrets mitjançant el mostreig de l'amplitud d'un senyal a intervals uniformes i l'arrodoniment al valor més proper representable amb el nombre de bits disponible. Aquest procés és fonamentalment inexact, i implica dos errors: error de discretització, de mostreig a intervals, i error de quantificació, d'arrodoniment.

Com més bits s'utilitzen per representar cada mostra, més fina serà la granularitat de la representació digital i, per tant, menor serà l'error de quantificació. Aquests errors de quantificació es poden considerar com un tipus de soroll, perquè són efectivament la diferència entre la font original i la seva representació binària. Amb PCM, els efectes audibles d'aquests errors es poden mitigar amb tramado i utilitzant prou bits per assegurar-se que el soroll sigui prou baix com per ser emmascarat pel propi senyal o per altres fonts de soroll. És possible un senyal d'alta qualitat, però a costa d'una taxa de bits elevada (per exemple, més de 700 kbit/s per a un canal d'àudio de CD). En efecte, es malgasten molts bits en la codificació de parts emmascarades del senyal perquè PCM no fa suposicions sobre com sent l'oïda humana.

Les tècniques de codificació redueixen la taxa de bits aprofitant les característiques conegudes del sistema auditiu. Un mètode clàssic és el PCM no lineal, com l'algorisme de la llei μ. Els senyals petits es digitalitzen amb una granularitat més fina que els grans; l'efecte és afegir soroll que és proporcional a la força del senyal. El format de fitxer Au de Sun de so és un exemple popular de codificació mu-law. L'ús de la codificació mu-law de 8 bits reduiria la taxa de bits per canal de l'àudio del CD a uns 350 kbit/s, la meitat de la velocitat estàndard. Com que aquest mètode senzill només explota mínimament els efectes d'emmascarament, produeix resultats que sovint són audiblement inferiors en comparació amb l'original.[3]

Principis bàsics

[modifica]

La utilitat de SBC potser s'il·lustra millor amb un exemple específic. Quan s'utilitza per a la compressió d'àudio, SBC aprofita l'emmascarament auditiu al sistema auditiu. Les orelles humanes solen ser sensibles a una àmplia gamma de freqüències, però quan hi ha un senyal prou fort a una freqüència, l'oïda no escoltarà senyals més febles a les freqüències properes. Diem que el senyal més fort emmascara els més suaus.

La idea bàsica de SBC és permetre una reducció de dades descartant informació sobre freqüències que estan emmascarades. El resultat difereix del senyal original, però si la informació descartada s'escull amb cura, la diferència no es notarà, o el que és més important, censurable.

Primer, un banc de filtres digitals divideix l'espectre del senyal d'entrada en un nombre (per exemple, 32) de subbandes. El model psicoacústic analitza l'energia en cadascuna d'aquestes subbandes, així com en el senyal original, i calcula els llindars d'emmascarament utilitzant informació psicoacústica. Cadascuna de les mostres de subbanda es quantifica i codifica per mantenir el soroll de quantificació per sota del llindar d'emmascarament calculat dinàmicament. El pas final és formatar totes aquestes mostres quantificades en grups de dades anomenats fotogrames, per facilitar la reproducció eventual per un descodificador.

La descodificació és molt més fàcil que la codificació, ja que no hi ha cap model psicoacústic implicat. Els fotogrames es desempaqueten, les mostres de subbanda es descodifiquen i un mapeig freqüència-temps reconstrueix un senyal d'àudio de sortida.[4]

Aplicacions

[modifica]

A partir de finals de la dècada de 1980, un organisme d'estandardització, el Moving Picture Experts Group (MPEG), va desenvolupar estàndards per a la codificació tant d'àudio com de vídeo. La codificació de subbanda resideix al cor del popular format MP3 (més pròpiament conegut com MPEG-1 Audio Layer III), per exemple.

La codificació de subbanda s'utilitza al còdec G.722 que utilitza la modulació de codi de pols diferencial adaptatiu de subbanda (SB- ADPCM) amb una velocitat de bits de 64 kbit/s. En la tècnica SB-ADPCM, la banda de freqüència es divideix en dues subbandes (superior i inferior) i els senyals de cada subbanda es codifiquen mitjançant ADPCM.

Referències

[modifica]
  1. «EE-597 Class Notes – Sub-Band Coding» (en anglès). [Consulta: 28 octubre 2023].
  2. «[https://www.ece.mcmaster.ca/~shirani/multi12/subband.pdf Multimedia Communications Subband Coding]» (en anglès). [Consulta: 28 octubre 2023].
  3. «Subband Coding - an overview | ScienceDirect Topics» (en anglès). [Consulta: 28 octubre 2023].
  4. «Digital signal processor: Sub-band coding» (en anglès americà). [Consulta: 28 octubre 2023].