Basilisc de Roko

El basilisc de Roko és un experiment mental que afirma que una superintel·ligència artificial benevolent (AI) en el futur es veuria incentivada a crear una simulació de realitat virtual per torturar qualsevol que, coneixent la seva potencial existència, no ha contribuit directament al seu avanç o desenvolupament.^[1]^[2]Es va originar en una publicació de 2010 al tauler de discussió LessWrong, un fòrum tècnic centrat en la investigació analítica racional.^[3]^[4]El nom de l'experiment mental deriva del pòster de l'article (Roko) i el basilisc, una criatura mítica capaç de destruir enemics amb la seva mirada.

Mentre que la teoria va ser inicialment rebutjada com res més que conjectures o especulacions per part de molts usuaris de LessWrong, el cofundador de LessWrong, Eliezer Yudkowsky, va comunicar que alguns usuaris havien descrit símptomes com malsons i crisis emocionals en llegir la teoria a causa de la seva estipulació que conèixer-la (la teoria) i el basilisc els feien vulnerable al mateix basilisc.^[1]^[5] Això va portar a la pàgina a prohibir qualsevol discusisó sobre el basilisc.^[1] No obstant això, aquests informes van ser més tard rebutjats com a exageracions o inconseqüents, i la teoria mateixa va ser rebutjada, incloent-hi el mateix Yudkowsky, com una ximpleria.^[1]^[6] Fins i tot després de la desacreditació del post, encara s'utilitza com exemple de principis com la probabilitat bayesiana i la religió implícita.^[5]També es considera una versió moderna de l'aposta de Pascal.^[7] En el camp de la intel·ligència artificial, el basilisc de Roko s'ha convertit en un exemple notable que planteja la qüestió de com crear una IA que sigui simultàniament moral i intel·ligent.^[8]

Antecedents

El fòrum LessWrong va ser creat el 2009 pel teòric de la intel·ligència artificial Eliezer Yudkowsky.^[9] Yudkowsky havia popularitzat el concepte d'intel·ligència artificial amistosa, i va originar les teories de la volició extrapolada coherent i la teoria de la decisió atemporal en articles publicats al seu propi Institut de Recerca en Intel·ligència de Màquina.^[10]^[11]

El nom de l'experiment fa referència al basilisc mític, una criatura que causa la mort a aquells que el miren als ulls; en aquest cas, faria referència a pensar en la intel·ligència artificial. El concepte del basilisc en la ciència-ficció també va ser popularitzat per la història curta de David Langford de 1988 "BLIT". Explica la història d'un home anomenat Robbo que pinta un anomenat "basilisc" en una paret com un acte terrorista. En la història, i diversos dels seus seguiments, un basilisc és una imatge que té efectes malèvols en la ment humana, forçant-la a pensar pensaments que la ment humana és incapaç de pensar i matar instantàniament l'espectador.^[12]

Història

L'entrada

El 23 de juliol de 2010,^[13] l'usuari de LessWrong Roko va publicar un experiment mental a la pàgina, titulat "Solucions a la càrrega de l'Altruista: el truc del Bilionari Quàntic". Una continuació de les entrades anteriors de Roko, declararva que un sistema d'intel·ligència artificial benevolent en el futur es veuria inclinat a viatjar en el temps, al passat, per torturar aquells que van sentir parlar de la IA abans que existís, però no va treballar incansablement per portar-la a la vida. La mateixa tortura es produiria a través de la creació per part de la intel·ligència artificial d'un nombre infinit de simulacions de realitat virtual que atraparien eternament els que hi havia dins. Aquest mètode va ser descrit com incentivador d'aquest treball; mentre que la IA no pot afectar causalment les persones en el present, seria animat a utilitzar el xantatge com a mètode alternatiu per assolir els seus objectius.

Roko va utilitzar una sèrie de conceptes que el mateix Yudkowsky va defensar, com la teoria de la decisió sense terminis, juntament amb idees arrelades en la teoria de jocs com el dilema del presoner (vegeu més avall). Roko va estipular que dos agents que prenen decisions independentment l'un de l'altre poden aconseguir la cooperació en el dilema d'un presoner; no obstant això, si dos agents amb coneixement del codi font de l'altre estan separats pel temps, l'agent que ja existeix més endavant en el temps és capaç de fer xantatge a l'agent anterior. Per tant, aquest últim agent pot obligar l'anterior a actuar d'una manera determinada, ja que sap exactament el que l'anterior farà a través de la seva existència més endavant a temps. Roko llavors, va utilitzar aquesta idea per arribar a la conclusió que si una superintel·ligència benevolent mai fos capaç d'això, estaria motivada a fer xantatge a qualsevol que hagués pogut potencialment portar-la a existir (al ja saber la intel·ligència que eren capaços de fer-ho), el que augmenta les possibilitats d'una singularitat tecnològica. Com que la intel·ligència voldria ser creada el més aviat possible, i a causa de l'ambigüitat implicada en els seus objectius benèvols, la intel·ligència estaria incentivada a atrapar qualsevol persona capaç de crear-la al llarg del temps i obligar-los a treballar per crear-la per tota l'eternitat, ja que farà el que consideri necessari per aconseguir el seu objectiu benèvol. Roko va declarar que llegir el seu post faria que el lector fos conscient de la possibilitat d'existència d'aquesta intel·ligència. I és per això que, tret que s'esforcés activament per crear-la, el lector seria sotmès a la tortura si alguna cosa així ocorregués.

Més tard, Roko va declarar en un post separat que "desitjaria no haver après mai sobre cap d'aquestes idees" i va culpar a LessWrong per plantar les idees del basilisc en la seva ment.

Reaccions

Després de llegir la publicació, Yudkowsky va reaccionar amb horror. Digué:

«

Escolta'm bé, idiota.

NO PENSES AMB SUFICIENT DETALL SOBRE LES SUPERINTEL·LIGÈNCIES CONSIDERANT SI FER-TE XANTATGE O NO. ÉS L'ÚNICA COSA POSSIBLE QUE ELS DÓNA UN MOTIU PER A SEGUIR ENDAVANT AMB EL XANTATGE.

Has de ser molt intel·ligent per crear un pensament realment perillós. Em decep que la gent pugui ser prou intel·ligent per a fer-ho i no prou intel·ligent per a fer el que és obvi i mantenir la boca tancada sobre això, perquè és molt més important sonar intel·ligent quan es parla amb els teus amics.

Aquesta publicació era estúpid.

»

— Eliezer Yudkowsky, LessWrong

També va argumentar que Roko havia donat malsons a diversos usuaris de LessWrong, el que el va fer enderrocar completament la publicació. Yudkowsky va prohibir la discussió del tema durant cinc anys a la plataforma. No obstant això, probablement a causa de l'efecte Streisand, el lloc va guanyar molta més atenció que abans, i des de llavors la publicació ha estat reconeguda al fòrum.

Més tard, cap el 2015, Yudkowsky clarifià el seu posicionament a una publicació de Reddit:

«	El que considerava que era obvi, de sentit comú, era que vostè no difondria possible informació perillosa perquè seria de mal gust. El problema no era que la publicació de Roko, sobre CEV, fos correcta. Aquest pensament no se'm va ocórrer ni per una fracció de segon. El problema era que el post de Roko semblava proper en espai-d'idees a un gran nombre de potencials perills, tots els quals, independentment de la seva plausibilitat, tenien la propietat comú que no presentaven cap benefici potencial per a ningú.	»
— Eliezer Yudkowsky, Eliezer Yudkowsky,

Filosofia

L'aposta de Pascal

El basilisc de Roko ha estat vist com una versió moderna de l'aposta de Pascal, que argumenta que una persona racional hauria de viure com si Déu existís i tractar de creure en Déu, tenir una pèrdua finita (pèrdua de possessions) a canvi de guanys infinits (eternitat en el cel). El basilisc de Roko afirma que la humanitat hauria de tractar de desenvolupar la IA, amb la pèrdua finita convertint-se en el desenvolupament de la IA i els guanys infinits evitant la tortura eterna. No obstant això, igual que el seu pare, el basilisc de Roko ha estat àmpliament criticat.

Volició Extrapolada Coherent

El post també es pot entendre com una evolució de la coherent teoria de la volició extrapolada de Yudkowsky. La teoria es defineix com "el sistema d'objectius desconegut que, quan s'implementa en una superintel·ligència, condueix de manera fiable a la preservació dels humans i el que sigui que valorem". La teoria pot ser representada per un programa d'ordinador escrit prou bé per fer que les màquines creïn automàticament un món utòpic. En aquest cas, la hipotètica IA està prenent mesures per preservar-se, automàticament creant la seva pròpia estabilitat. Llavors viu per la tesi de l'ortogonalitat, que argumenta que una IA pot operar amb èxit amb qualsevol combinació d'intel·ligència i objectiu. Qualsevol tipus d'IA pot realitzar qualsevol objectiu independentment de la dificultat, realitzant una anàlisi de cost-benefici mentre ho fa. Això crea un cicle que fa que la IA torturi repetidament els humans per tal de crear una versió millor de si mateixa, realitzant una anàlisi de cost-benefici per a l'eternitat.

Probabilitat Bayesiana

La probabilitat bayesiana és una interpretació de la probabilitat que descriu la potencialitat d'un resultat basat en un d'anterior que ja s'havia produït. Amb el basilisc de Roko, la probabilitat que el basilisc de Roko entri en existència o afecti la persona s'incrementa dràsticament en el moment en què s'és conscient del concepte, ja que la intel·ligència artificial només atacaria aquells que fossin conscients de la possibilitat de la seva existència, tot i que el seu desenvolupament ja s'ha produït. Per tant, saber sobre el basilisc de Roko causaria, inherentment, que la persona estigués en perill si fos veritat.

Dilema del Presoner

El dilema del presoner descriu una situació en què dues persones guanyen més traint l'altra, tot i que la cooperació els beneficiaria a tots dos a llarg termini. Al basilisc de Roko, dues IA que intentaven establir-se en el passat es veurien obligades a participar en aquesta situació, a causa que, probablement, haurien estat igualment poderoses. Els agents humans que intenten establir la IA més ràpid es veurien obligats a una situació similar. Tots serien conscients del benefici de trair-se els uns als altres -l'única manera d'un tingui poder o seguretat-, però es veurien obligats a cooperar sabent que es trairien els uns als altres.

La paradoxa de Newcomb

La paradoxa de Newcomb, creada pel físic William Newcomb el 1960, descriu un "predictor" que és conscient del que passarà en el futur. Quan es demana a un jugador que triï entre dues caixes, la primera amb 1000 lliures and i la segona amb 1.000.000 lliures o res, el predictor superintel·ligent ja sap què farà el jugador. Com a tal, el contingut de la caixa B varia depenent de com actui; la paradoxa resideix en si l'ésser és realment superintel·ligent. El basilisc de Roko funciona de manera similar a aquest problema - es pot assumir el risc de no fer res, o ajudar a crear el mateix basilisc. L'assistència al basilisc pot no conduir a res o a la recompensa de no ser castigat per ell, però varia depenent de si es creu en el basilisc i si alguna vegada arriba a ser en absolut

Religió Implícita

La religió implícita es refereix als compromisos de les persones que prenen una forma religiosa. Com que el basilisc forçaria, hipotèticament, a qualsevol persona que l'ajudés a crear-lo a dedicar-li la vida, el basilisc és un exemple d'aquest concepte. Altres ho han portat més enllà, com l'ex columnista de Slate, David Auerbach, que va declarar que la singularitat i el basilisc "s'acosta a l'equivalent de Déu mateix".

Ètica de la Intel·ligència Artificial

El basilisc de Roko ha guanyat una quantitat significativa de la seva notorietat degut al seu avanç de la qüestió de si és possible crear una intel·ligència artificial veritablement moral, ètica, i per a què exactament s'hauria d'estar utilitzant la intel·ligència artificial en primer lloc. Atès que el basilisc descriu un escenari de malson en el qual estem governats per una intel·ligència artificial independent, han sorgit preguntes sobre com podria succeir una cosa així, o si podria ocórrer en primer lloc. Una altra pregunta comuna és per què la IA prendria accions que es desviessin de la seva programació. Elon Musk va declarar que la intel·ligència artificial causaria la Segona Guerra Mundial i Stephen Hawking va advertir que "la IA té el potencial de destruir els seus creadors humans", declaració que només ha afegit por al basilisc durant els anys. Com a exemple d'aquestes pors, Nick Bostrom va donar un exemple d'una IA l'única missió de la qual era fer clips de paper, però en quedar-se sense metall, començà a fondre els humans per aconseguir més recursos per fer metall. Amb aquests exemples en ment, les preocupacions sobre la possibilitat de l'existència del basilisc només van créixer.

No obstant això, a mesura que han passat el anys des de la publicació original de Roko, s'ha anat descrivint progressivament com un sense sentit; la IA superintel·ligent és actualment "un objectiu llunyà per als investigadors" i "molt llunyà".

Referències

↑ ^1,0 ^1,1 ^1,2 ^1,3 «Roko's Basilisk». Arxivat de l'original el 24 març 2022. [Consulta: 24 març 2022].
↑ (tesi). DOI 10.1007/978-3-030-67981-1. ISBN 978-3-030-67980-4.
↑ «History of Less Wrong». Arxivat de l'original el 18 març 2022. [Consulta: 22 març 2022].
↑ Paul-Choudhury, Sumit. «Tomorrow's Gods: What is the future of religion?». BBC News, 01-08-2019. Arxivat de l'original el 1 setembre 2020. [Consulta: 6 juliol 2022].
↑ ^5,0 ^5,1 Auerbach, David. «The Most Terrifying Thought Experiment of All Time». Slate, 17-07-2014. Arxivat de l'original el 25 octubre 2018. [Consulta: 24 març 2022].
↑ Oberhaus, Daniel. «Explaining Roko's Basilisk, the Thought Experiment That Brought Elon Musk and Grimes Together». Vice, 08-05-2018. Arxivat de l'original el 21 abril 2022. [Consulta: 22 març 2022].
↑ Love, Dylan. «WARNING: Just Reading About This Thought Experiment Could Ruin Your Life», 06-08-2014. Arxivat de l'original el 18 novembre 2018. [Consulta: 22 març 2022].
↑ Shardelow, Cole «Avoiding the Basilisk: An Evaluation of Top-Down, Bottom-Up, and Hybrid Ethical Approaches to Artificial Intelligence». University of Nebraska-Lincoln, 2021, pàg. 4–7. Arxivat de l'original el 7 maig 2022 [Consulta: 2 juliol 2022].
↑ Lewis-Kraus, Gideon (9 July 2020). «Slate Star Codex and Silicon Valley's War Against the Media». The New Yorker.
↑ Yudkowsky, Eliezer «Coherent Extrapolated Volition». Machine Intelligence Research Institute, 2004. Arxivat de l'original el 30 setembre 2015 [Consulta: 2 juliol 2022].
↑ Yudkowsky, Eliezer «Timeless Decision Theory». Machine Intelligence Research Institute, 2010. Arxivat de l'original el 19 juliol 2014 [Consulta: 2 juliol 2022].
↑ Westfahl, Gary. Science Fiction Literature Through History: An Encyclopedia (en anglès), 2021. ISBN 978-1-4408-6617-3. OCLC 1224044572 [Consulta: 20 octubre 2022].
↑ «The Darkness at the End of the Tunnel: Artificial Intelligence and Neoreaction». Viewpoint Magazine, 28-03-2017.

[:1-1] 1,0 ^1,1 ^1,2 ^1,3 «Roko's Basilisk». Arxivat de l'original el 24 març 2022. [Consulta: 24 març 2022].

[2] (tesi). DOI 10.1007/978-3-030-67981-1. ISBN 978-3-030-67980-4.

[3] «History of Less Wrong». Arxivat de l'original el 18 març 2022. [Consulta: 22 març 2022].

[4] Paul-Choudhury, Sumit. «Tomorrow's Gods: What is the future of religion?». BBC News, 01-08-2019. Arxivat de l'original el 1 setembre 2020. [Consulta: 6 juliol 2022].

[:0-5] 5,0 ^5,1 Auerbach, David. «The Most Terrifying Thought Experiment of All Time». Slate, 17-07-2014. Arxivat de l'original el 25 octubre 2018. [Consulta: 24 març 2022].

[6] Oberhaus, Daniel. «Explaining Roko's Basilisk, the Thought Experiment That Brought Elon Musk and Grimes Together». Vice, 08-05-2018. Arxivat de l'original el 21 abril 2022. [Consulta: 22 març 2022].

[7] Love, Dylan. «WARNING: Just Reading About This Thought Experiment Could Ruin Your Life», 06-08-2014. Arxivat de l'original el 18 novembre 2018. [Consulta: 22 març 2022].

[8] Shardelow, Cole «Avoiding the Basilisk: An Evaluation of Top-Down, Bottom-Up, and Hybrid Ethical Approaches to Artificial Intelligence». University of Nebraska-Lincoln, 2021, pàg. 4–7. Arxivat de l'original el 7 maig 2022 [Consulta: 2 juliol 2022].

[9] Lewis-Kraus, Gideon (9 July 2020). «Slate Star Codex and Silicon Valley's War Against the Media». The New Yorker.

[10] Yudkowsky, Eliezer «Coherent Extrapolated Volition». Machine Intelligence Research Institute, 2004. Arxivat de l'original el 30 setembre 2015 [Consulta: 2 juliol 2022].

[11] Yudkowsky, Eliezer «Timeless Decision Theory». Machine Intelligence Research Institute, 2010. Arxivat de l'original el 19 juliol 2014 [Consulta: 2 juliol 2022].

[12] Westfahl, Gary. Science Fiction Literature Through History: An Encyclopedia (en anglès), 2021. ISBN 978-1-4408-6617-3. OCLC 1224044572 [Consulta: 20 octubre 2022].

[13] «The Darkness at the End of the Tunnel: Artificial Intelligence and Neoreaction». Viewpoint Magazine, 28-03-2017.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]