Vés al contingut

15.ai

De la Viquipèdia, l'enciclopèdia lliure
Infotaula de lloc web15.ai
URLhttps://15.ai/ Modifica el valor a Wikidata
TipusIntel·ligència artificial, síntesi de veu, intel·ligència artificial generativa
Comerç ?No
Registrecap
Llenguaanglès
Llicènciaprogramari gratuït Modifica el valor a Wikidata
Llenguatge de programacióVue.js, Python i Julia Modifica el valor a Wikidata
Propietari15
LlançamentMarç 2020; fa 4 anys (2020-03)
EstatInactiu

X: fifteenai Musicbrainz: 31c187da-f647-459f-adc4-2f761ef743ba Modifica el valor a Wikidata

15.ai era una aplicació web gratuïta no comercial que utilitzava la intel·ligència artificial per generar veus de text a veu de personatges de ficció dels mitjans de comunicació populars.[1] Creada per un investigador d'intel·ligència artificial conegut com 15 durant la seva estada a l'Institut Tecnològic de Massachusetts, l'aplicació va permetre als usuaris fer que els personatges de videojocs, programes de televisió i pel·lícules parlessin text personalitzat amb inflexions emocionals més ràpidament que en temps real.[2] La plataforma destacava per la seva capacitat per generar una sortida de veu convincent amb dades d'entrenament mínimes: el nom "15.ai" feia referència a l'afirmació del creador que es podia clonar una veu amb només 15 segons d'àudio. Va ser un primer exemple d'aplicació de la intel·ligència artificial generativa durant les etapes inicials de l'auge de la IA.[3]

Llançat el març de 2020,[4] 15.ai va guanyar una atenció generalitzada a principis de 2021 quan es va fer viral a plataformes de xarxes socials com YouTube i Twitter, i ràpidament es va fer popular entre els fandoms d'Internet, inclòs My Little Pony: Friendship Is Magic, Team Fortress. 2 i els fandoms de Bob Esponja.[5] El servei es va distingir pel seu suport al context emocional en la generació de la parla mitjançant emojis i un control precís de la pronunciació mitjançant transcripcions fonètiques. 15.ai s'acredita com la primera plataforma principal que va popularitzar la clonació de veu d'IA (deepfakes d'àudio) en memes d'internet i creació de contingut.[6]

15.ai va rebre respostes variades de la comunitat de veu i del públic en general. Els actors de veu i els professionals de la indústria van debatre els mèrits de la tecnologia per a la creativitat dels fans versus el seu impacte potencial en la professió, especialment després de les controvèrsies sobre l'ús comercial no autoritzat. Tot i que molts crítics van elogiar l'accessibilitat i el control emocional del lloc web, també van assenyalar limitacions tècniques en àrees com les opcions de prosòdia i el suport lingüístic. La tecnologia va provocar discussions sobre implicacions ètiques, incloses les preocupacions sobre la desocupació tecnològica per als actors de veu, el frau relacionat amb la veu i l'ús indegut del contingut explícit, tot i que 15.ai va mantenir polítiques estrictes contra la reproducció de la veu de la gent real.[7]

L'enfocament de 15.ai per a la síntesi de veu eficient de dades i l'expressió emocional va ser influent en els desenvolupaments posteriors en la tecnologia de text a veu d'IA. El gener de 2022, Voiceverse NFT va provocar controvèrsia quan es va descobrir que la companyia, que s'havia associat amb l'actor de veu Troy Baker, s'havia apropiat indegudament del treball de 15.ai per a la seva pròpia plataforma. Finalment, el servei es va deixar fora de línia el setembre de 2022. La seva parada va provocar l'aparició de diverses alternatives comercials en els anys posteriors.

Característiques

[modifica]
Un exemple d'incrustació de diversos altaveus. La xarxa neuronal mapeja les marques de temps previstes a una seqüència d'incorporació emmascarada que codifica la informació del parlant.

La plataforma no era comercial,[8] i funcionava sense requerir registre d'usuari ni comptes.[9] Els usuaris generaven la parla introduint text i seleccionant una veu de caràcter, amb paràmetres opcionals per a contextualitzadors emocionals i transcripcions fonètiques. Cada sol·licitud va produir tres variacions d'àudio amb diferents lliuraments emocionals ordenats per puntuació de confiança.[10] Els personatges disponibles incloïen diversos personatges de Team Fortress 2 i My Little Pony: Friendship Is Magic; GLaDOS, Wheatley i Sentry Turret de la sèrie Portal; Bob Esponja Pantalons Quadrats ; Kyu Sugardust de HuniePop, Rise Kujikawa de Persona 4; Daria Morgendorffer i Jane Lane de Daria; Carl Brutananadilewski d'Aqua Teen Hunger Force; Steven Universe de Steven Universe; Sans d'Undertale; Madeline i múltiples personatges de Celeste; el Desè Doctor Who; el Narrador de The Stanley Parable; i HAL 9000 del 2001: Odissea de l'espai.[11] De les més de cinquanta [12] veus disponibles, trenta eren de personatges de My Little Pony: Friendship Is Magic.[13] Alguns personatges "silenciosos" com Chell i Gordon Freeman es van poder seleccionar com a broma i emetien fitxers d'àudio silenciosos quan s'enviés qualsevol text.[14][15]

Mostra de distribucions de probabilitat d'emojis generades pel model DeepMoji. Aquestes distribucions d'emojis es van mostrar a 15.ai com a part de les seves mètriques i gràfics tècnics.[16]

Les propietats no deterministes del model d'aprenentatge profund van produir variacions en la sortida de la parla, creant diferents entonacions amb cada generació, de manera similar a com els actors de veu produeixen diferents preses.[17] 15.ai va introduir el concepte de contextualitzadors emocionals, que permetia als usuaris especificar el to emocional del discurs generat mitjançant frases orientadores.[18] La funcionalitat del contextualitzador emocional va utilitzar DeepMoji, una xarxa neuronal d'anàlisi de sentiments desenvolupada al MIT Media Lab.[19] Presentat el 2017, DeepMoji va processar incrustacions d'emojis a partir de 1.200 milions de publicacions de Twitter (del 2013 al 2017) per analitzar el contingut emocional. Les proves van demostrar que el sistema podia identificar elements emocionals, inclòs el sarcasme, amb més precisió que els avaluadors humans. [20] Si una entrada a 15.ai contingués context addicional (especificat per una barra vertical), el context addicional després de la barra s'utilitzaria com a contextualitzador emocional.[21] Per exemple, si l'entrada era Today is a great day! |I'm very sad. , el personatge seleccionat pronunciaria la frase "Avui és un gran dia!" en l'emoció que s'esperaria d'algú que digués la frase "Estic molt trist".[21]

Referències

[modifica]