FMLLR
En el processament del senyal, la regressió lineal de màxima probabilitat de l'espai de característiques (fMLLR) és una transformació de característiques global que s'aplica normalment d'una manera adaptativa a l'altaveu, on fMLLR transforma les característiques acústiques en característiques adaptades als altaveus mitjançant una operació de multiplicació amb una matriu de transformació. En certa literatura, fMLLR també es coneix com a regressió lineal de màxima probabilitat restringida (cMLLR).[1]
Les transformacions fMLLR s'entrenen en un sentit de màxima probabilitat en dades d'adaptació. Aquestes transformacions es poden estimar de moltes maneres, però a fMLLR només es considera l'estimació de màxima probabilitat (ML). La transformació fMLLR s'entrena en un conjunt particular de dades d'adaptació, de manera que maximitza la probabilitat d'aquestes dades d'adaptació donat un conjunt de models actual.[2]
Aquesta tècnica és un enfocament àmpliament utilitzat per a l'adaptació del parlant en el reconeixement de parla basat en HMM.[3][4] Investigacions posteriors també mostren que fMLLR és una característica acústica excel·lent per als models híbrids de reconeixement de veu DNN/HMM.[5]
L'avantatge de fMLLR inclou el següent:
- el procés d'adaptació es pot dur a terme dins d'una fase de preprocessament, i és independent del procés d'entrenament i descodificació de l'ASR.
- aquest tipus de característica adaptada es pot aplicar a xarxes neuronals profundes (DNN) per substituir l'espectrograma mel utilitzat tradicionalment en models de reconeixement de veu d'extrem a extrem.
- El procés d'adaptació d'altaveus de fMLLR condueix a un augment significatiu del rendiment dels models ASR, per tant, superant altres transformacions o característiques com els coeficients MFCC (Mel-Frequency Cepstral Coeficients) i FBANKs (banc de filtres).
- Les funcions de fMLLR es poden realitzar de manera eficient amb equips d'eines de parla com Kaldi.
Principal problema i desavantatge de fMLLR:
- quan la quantitat de dades d'adaptació és limitada, les matrius de transformació tendeixen a sobreajustar fàcilment les dades donades.
Referències
[modifica]- ↑ M.J.F. Gales «Maximum likelihood linear transformations for HMM-based speech recognition». Computer Speech & Language, vol. 12, 2, 1998, pàg. 75–98. DOI: 10.1006/csla.1998.0043.
- ↑ M.J.F. Gales «Maximum likelihood linear transformations for HMM-based speech recognition». Computer Speech & Language, vol. 12, 2, 1998, pàg. 75–98. DOI: 10.1006/csla.1998.0043.
- ↑ M.J.F. Gales Computer Speech & Language, 12, 2, 1998, pàg. 75–98. DOI: 10.1006/csla.1998.0043.
- ↑ (2005) "" a IEEE International Conference on Multimedia and Expo (ICME).
- ↑ Li, Longfei; Zhao, Yong; Jiang, Dongmei; Zhang, Yanning; Wang, Fengna 2013 Humaine Association Conference on Affective Computing and Intelligent Interaction, 9-2013, pàg. 312–317. DOI: 10.1109/acii.2013.58.