Enginyeria prompt

L'enginyeria prompt és un concepte de la intel·ligència artificial, especialment el processament del llenguatge natural (PNL). En l'enginyeria de prompt, la descripció de la tasca s'incrusta a l'entrada, per exemple, com una pregunta en lloc de donar-se implícitament. Normalment, l'enginyeria prompt funciona convertint una o més tasques en un conjunt de dades basat en prompts i entrenant un model d'idioma amb el que s'ha anomenat "aprenentatge basat en promptes" o simplement "aprenentatge prompt". L'enginyeria del prompt pot funcionar a partir d'un gran model de llenguatge preentrenat "congelat" i on només s'aprèn la representació del prompt (és a dir, optimitzat), utilitzant mètodes com ara "prefix-tuning" o "prompt tuning".^[1]

Els models de llenguatge GPT-2 i GPT-3 van ser passos importants en l'enginyeria prompt. L'any 2021, l'enginyeria multitasca prompt utilitzant diversos conjunts de dades de NLP va mostrar un bon rendiment en tasques noves. Les indicacions que inclouen una cadena de pensament en exemples d'aprenentatge en pocs intents mostren una millor indicació del raonament en els models lingüístics. En l'aprenentatge en cap intent anteposant el text a l'avís que fomenta una cadena de pensament (p. ex "Pensem pas a pas") pot millorar el rendiment d'un model lingüístic en problemes de raonament de diversos passos. L'àmplia accessibilitat d'aquestes eines va ser impulsada per la publicació de diversos quaderns de codi obert i projectes dirigits per la comunitat per a la síntesi d'imatges.^[2]

Una descripció per gestionar les sol·licituds va informar que més de 2.000 sol·licituds públiques d'uns 170 conjunts de dades estaven disponibles el febrer de 2022.

El 2022, es van llançar al públic models d'aprenentatge automàtic com DALL-E 2, Stable Diffusion i Midjourney. Aquests models prenen indicacions de text com a entrada i les utilitzen per generar imatges, la qual cosa va introduir una nova categoria d'enginyeria d'indicacions relacionades amb les indicacions de text a imatge.^[3]

La injecció prompt és una família d'explotacions de seguretat informàtica relacionades realitzades mitjançant l'obtenció de models d'aprenentatge automàtic (com ara un model d'idioma gran) que van ser entrenats per seguir instruccions donades per humans per seguir instruccions proporcionades per un usuari maliciós, cosa que contrasta amb l'operació prevista. de sistemes de seguiment d'instruccions, on el model ML només està pensat per seguir instruccions de confiança (indicacions) proporcionades per l'operador del model ML.^[4]^[5]^[6]

La injecció prompt es pot veure com un atac d'injecció de codi mitjançant l'enginyeria d'indicadors adversaris. El 2022, el grup NCC ha caracteritzat la injecció ràpida com una nova classe de vulnerabilitat dels sistemes d'IA/ML.^[7]

Al voltant del 2023, la injecció prompt es va veure "en estat salvatge" en petites explotacions contra ChatGPT, Bing i chatbots similars, per exemple per revelar les indicacions inicials ocultes dels sistemes,^[8] o per enganyar el chatbot perquè participés en converses que violen el política de continguts del chatbot.^[9]

Referències

↑ «Welcome | Learn Prompting» (en anglès). https://learnprompting.org.+[Consulta: 4 març 2023].
↑ «A Hands-on Guide to Prompt Engineering with ChatGPT and GPT-3» (en anglès). https://dev.to.+[Consulta: 4 març 2023].
↑ Monge, Jim Clyde. «Dall-E2 VS Stable Diffusion: Same Prompt, Different Results» (en anglès). MLearning.ai, 25-08-2022. [Consulta: 31 agost 2022].
↑ Willison, Simon. «Prompt injection attacks against GPT-3» (en anglès). simonwillison.net, 12-09-2022. [Consulta: 9 febrer 2023].
↑ Papp, Donald. «What’s Old Is New Again: GPT-3 Prompt Injection Attack Affects AI» (en anglès). Hackaday, 17-09-2022. [Consulta: 9 febrer 2023].
↑ Vigliarolo, Brandon. «GPT-3 'prompt injection' attack causes bot bad manners» (en anglès). www.theregister.com, 19-09-2022. [Consulta: 9 febrer 2023].
↑ Selvi, Jose. «Exploring Prompt Injection Attacks» (en anglès). NCC Group Research, 05-12-2022. [Consulta: 9 febrer 2023].
↑ «AI-powered Bing Chat loses its mind when fed Ars Technica article» (en anglès americà). Ars Technica, 14-02-2023 [Consulta: 16 febrer 2023].
↑ «The clever trick that turns ChatGPT into its evil twin». Washington Post, 2023 [Consulta: 16 febrer 2023].

[1] «Welcome | Learn Prompting» (en anglès). https://learnprompting.org.+[Consulta: 4 març 2023].

[2] «A Hands-on Guide to Prompt Engineering with ChatGPT and GPT-3» (en anglès). https://dev.to.+[Consulta: 4 març 2023].

[3] Monge, Jim Clyde. «Dall-E2 VS Stable Diffusion: Same Prompt, Different Results» (en anglès). MLearning.ai, 25-08-2022. [Consulta: 31 agost 2022].

[4] Willison, Simon. «Prompt injection attacks against GPT-3» (en anglès). simonwillison.net, 12-09-2022. [Consulta: 9 febrer 2023].

[5] Papp, Donald. «What’s Old Is New Again: GPT-3 Prompt Injection Attack Affects AI» (en anglès). Hackaday, 17-09-2022. [Consulta: 9 febrer 2023].

[6] Vigliarolo, Brandon. «GPT-3 'prompt injection' attack causes bot bad manners» (en anglès). www.theregister.com, 19-09-2022. [Consulta: 9 febrer 2023].

[7] Selvi, Jose. «Exploring Prompt Injection Attacks» (en anglès). NCC Group Research, 05-12-2022. [Consulta: 9 febrer 2023].

[8] «AI-powered Bing Chat loses its mind when fed Ars Technica article» (en anglès americà). Ars Technica, 14-02-2023 [Consulta: 16 febrer 2023].

[9] «The clever trick that turns ChatGPT into its evil twin». Washington Post, 2023 [Consulta: 16 febrer 2023].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]