Whisper (reconeixement de veu)

Whisper
Tipus	reconeixement de veu
Llicència	llicència MIT
Equip
Creador/s	OpenAI OpCo (en) i OpenAI
Desenvolupador(s)	OpenAI
Codi font	Fonts de codi
Codi font	Codi font

Whisper és un model d'aprenentatge automàtic per al reconeixement i transcripció de veu, creat per OpenAI i llançat per primera vegada com a programari de codi obert el setembre de 2022.^[1]

És capaç de transcriure la parla en anglès i en diversos idiomes més, ^[2] i també és capaç de traduir a l'anglès diverses llengües no angleses. OpenAI afirma que la combinació de diferents dades d'entrenament utilitzades en el seu desenvolupament ha donat lloc a un millor reconeixement dels accents, el soroll de fons i l'argot en comparació amb els enfocaments anteriors.^[3]

Whisper és un model acústic d'aprenentatge profund poc supervisat, fet amb una arquitectura de transformador codificador-descodificador.

Whisper V2 es va llançar el 8 de desembre de 2022.^[4] Whisper V3 es va llançar el novembre de 2023, a l'OpenAI Dev Day.

Rerefons

El reconeixement de la parla ha tingut una llarga trajectòria en la recerca; els primers enfocaments van fer ús de mètodes estadístics, com ara la deformació del temps dinàmica, i més tard els models de Màrkov ocults. Al voltant de la dècada de 2010, els enfocaments de xarxes neuronals profundes es van fer més habituals per als models de reconeixement de veu, que es van permetre gràcies a la disponibilitat de grans conjunts de dades ("big data") i un augment del rendiment computacional.^[5] Els primers enfocaments de l'aprenentatge profund en el reconeixement de la parla incloïen xarxes neuronals convolucionals, que estaven limitades a causa de la seva incapacitat per capturar dades seqüencials, la qual cosa més tard va conduir al desenvolupament dels enfocaments Seq2seq, que inclouen xarxes neuronals recurrents que feien ús de la memòria a curt termini.

Transformers, introduït el 2017 per Google, va desplaçar molts enfocaments d'avantguarda anteriors a molts problemes de l'aprenentatge automàtic i va començar a convertir-se en l'arquitectura neuronal bàsica en camps com el modelatge del llenguatge i la visió per computador; ^[6] els enfocaments feblement supervisats per a l'entrenament de models acústics es van reconèixer a principis de la dècada de 2020 com a prometedors per als enfocaments de reconeixement de veu utilitzant xarxes neuronals profundes.^[7]

Segons un informe de NYT, el 2021 OpenAI va creure que esgotaven les fonts de dades de més qualitat per entrenar els seus grans models de llenguatge i van decidir complementar el text web raspat amb transcripcions de vídeos i podcasts de YouTube, i va desenvolupar Whisper per resoldre aquesta tasca.^[8]

Formació i capacitats

Whisper s'ha entrenat mitjançant aprenentatge semisupervisat en 680.000 hores de dades multilingües i multitasca, de les quals aproximadament una cinquena part (117.000 hores) eren dades d'àudio no anglesos. Whisper no supera els models especialitzats en el conjunt de dades LibriSpeech, tot i que quan es prova en molts conjunts de dades, és més robust i fa un 50% menys d'errors que altres models.^[9]

Whisper té una taxa d'error diferent pel que fa a la transcripció de diferents idiomes, amb una taxa d'error de paraula més alta en idiomes que no estan ben representats a les dades d'entrenament.^[10]

El model s'ha utilitzat com a base per a un model unificat de reconeixement de veu i reconeixement de so més general.^[11]

Arquitectura

L'arquitectura Whisper es basa en un transformador codificador-descodificador. L'àudio d'entrada es divideix en fragments de 30 segons convertits en un cepstrum de freqüència Mel, que es passa a un codificador. Un descodificador està entrenat per predir subtítols de text posteriors. S'utilitzen fitxes especials per realitzar diverses tasques, com ara marques de temps a nivell de frase.^[12]

Referències

↑ Golla, Ramsri Goutham. «Here Are Six Practical Use Cases for the New Whisper API» (en anglès americà). Slator, 06-03-2023. Arxivat de l'original el 2023-03-25. [Consulta: 12 agost 2023].
↑ Dickson, Ben. «How will OpenAI's Whisper model impact AI applications?» (en anglès americà). VentureBeat, 03-10-2022. Arxivat de l'original el 2023-03-15. [Consulta: 12 agost 2023].
↑ Wiggers, Kyle. «OpenAI open-sources Whisper, a multilingual speech recognition system» (en anglès americà). TechCrunch, 21-09-2022. Arxivat de l'original el February 12, 2023. [Consulta: 12 febrer 2023].
↑ «Announcing the large-v2 model · openai/whisper · Discussion #661» (en anglès). GitHub. [Consulta: 8 gener 2024].
↑ Yu, Dong. Automatic speech recognition: a deep learning approach (en anglès). 2015th. London Heidelberg: Springer, 2014, p. 9 (Signals and communication technology). ISBN 978-1-4471-5778-6.
↑ Kamath, Uday. Transformers for machine learning: a deep dive (en anglès). First. Boca Raton London New York: CRC Press, Taylor & Francis Group, 2022, p. xix (Chapman & Hall/CRC machine learning & pattern recognition). ISBN 978-0-367-76734-1.
↑ Paaß, Gerhard. «Foundation Models for Speech, Images, Videos, and Control». A: Foundation Models for Natural Language Processing (en anglès), 2023-02-16, p. 313–382 (Artificial Intelligence: Foundations, Theory, and Algorithms). DOI 10.1007/978-3-031-23190-2_7. ISBN 978-3-031-23189-6.
↑ Davis, Wes. «OpenAI transcribed over a million hours of YouTube videos to train GPT-4» (en anglès). The Verge, 06-04-2024. [Consulta: 20 abril 2024].
↑ «Introducing Whisper» (en anglès americà). openai.com, 21-09-2022. Arxivat de l'original el 2023-08-20. [Consulta: 21 agost 2023].
↑ Wiggers, Kyle. «OpenAI debuts Whisper API for speech-to-text transcription and translation» (en anglès americà). TechCrunch, 01-03-2023. Arxivat de l'original el 2023-07-18. [Consulta: 21 agost 2023].
↑ Yuan, Gong. «Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers». A: Interspeech 2023 (en anglès), 2023, p. 2798–2802. DOI 10.21437/Interspeech.2023-2193.
↑ «Introducing Whisper» (en anglès americà). openai.com, 21-09-2022. Arxivat de l'original el 2023-08-20. [Consulta: 21 agost 2023].

[1] Golla, Ramsri Goutham. «Here Are Six Practical Use Cases for the New Whisper API» (en anglès americà). Slator, 06-03-2023. Arxivat de l'original el 2023-03-25. [Consulta: 12 agost 2023].

[2] Dickson, Ben. «How will OpenAI's Whisper model impact AI applications?» (en anglès americà). VentureBeat, 03-10-2022. Arxivat de l'original el 2023-03-15. [Consulta: 12 agost 2023].

[3] Wiggers, Kyle. «OpenAI open-sources Whisper, a multilingual speech recognition system» (en anglès americà). TechCrunch, 21-09-2022. Arxivat de l'original el February 12, 2023. [Consulta: 12 febrer 2023].

[4] «Announcing the large-v2 model · openai/whisper · Discussion #661» (en anglès). GitHub. [Consulta: 8 gener 2024].

[deepasr-5] Yu, Dong. Automatic speech recognition: a deep learning approach (en anglès). 2015th. London Heidelberg: Springer, 2014, p. 9 (Signals and communication technology). ISBN 978-1-4471-5778-6.

[6] Kamath, Uday. Transformers for machine learning: a deep dive (en anglès). First. Boca Raton London New York: CRC Press, Taylor & Francis Group, 2022, p. xix (Chapman & Hall/CRC machine learning & pattern recognition). ISBN 978-0-367-76734-1.

[7] Paaß, Gerhard. «Foundation Models for Speech, Images, Videos, and Control». A: Foundation Models for Natural Language Processing (en anglès), 2023-02-16, p. 313–382 (Artificial Intelligence: Foundations, Theory, and Algorithms). DOI 10.1007/978-3-031-23190-2_7. ISBN 978-3-031-23189-6.

[8] Davis, Wes. «OpenAI transcribed over a million hours of YouTube videos to train GPT-4» (en anglès). The Verge, 06-04-2024. [Consulta: 20 abril 2024].

[whisperoff-9] «Introducing Whisper» (en anglès americà). openai.com, 21-09-2022. Arxivat de l'original el 2023-08-20. [Consulta: 21 agost 2023].

[10] Wiggers, Kyle. «OpenAI debuts Whisper API for speech-to-text transcription and translation» (en anglès americà). TechCrunch, 01-03-2023. Arxivat de l'original el 2023-07-18. [Consulta: 21 agost 2023].

[11] Yuan, Gong. «Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers». A: Interspeech 2023 (en anglès), 2023, p. 2798–2802. DOI 10.21437/Interspeech.2023-2193.

[whisperoff2-12] «Introducing Whisper» (en anglès americà). openai.com, 21-09-2022. Arxivat de l'original el 2023-08-20. [Consulta: 21 agost 2023].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]