Desigualtat en el tractament de dades

En matemàtiques i informàtica, la desigualtat en el tractament de dades (DPI, de l'anglès Data Processing Inequality) és un concepte de teoria de la informació que estableix que el contingut d'informació d'un senyal no es pot augmentar mitjançant una operació reiterativa local. Això es pot expressar de manera concisa com "el postprocessament no pot produir nova informació".^[1] Està molt relacionat amb el terme GIGO (garbage in, garbage out), que estipula que d'un input degenerat només en pot sorgir un output tant o més degenerat.^[2]

Aquest concepte ha guanyat pes amb l'aparició de processos de computació d'aprenentatge automàtic, com és el cas de l'entrenament de models d'intel·ligència artificial. Així, un model entrenat amb dades generades a partir d'un altre model no pot obtenir informació nova; al llarg d'aquest procés la qualitat dels models disminueix fins a obtenir resultats corromputs.^[3]^[4]

La desigualtat en el tractament de dades està estretament relacionada amb les inferències bayesianes.^[5] L'aparició d'inferències a partir de resultats incomplets afecta a la predicció de nous resultats, que ràpidament acaben col·lapsant el sistema.^[2]

Declaració

Es defineixen tres variables aleatòries que formen la cadena de Markov $X\rightarrow Y\rightarrow Z$ , el que implica que la distribució condicional de $Z$ depèn només de $Y$ i és condicionalment independent de $X$ . Concretament, tenim aquesta cadena de Markov si la funció de massa de probabilitat conjunta es pot escriure com

p(x,y,z)=p(x)p(y|x)p(z|y)=p(y)p(x|y)p(z|y)

En aquesta configuració, el no processament $Y$ , sigui de forma determinista o aleatòria, pot augmentar la informació que $Y$ conté sobre $X$ . Utilitzant la informació mútua, això es pot escriure com :

I(X;Y)\geqslant I(X;Z),

amb la igualtat $I(X;Y)=I(X;Z)$ si i només si $I(X;Y\mid Z)=0$ . És a dir, $Z$ i $Y$ contenen la mateixa informació sobre $X$ , i $X\rightarrow Z\rightarrow Y$ també forma una cadena de Markov.^[6]

Demostració

Es pot aplicar la regla de la cadena per a la informació mútua per obtenir dues descomposicions diferents de $I(X;Y,Z)$ :

I(X;Z)+I(X;Y\mid Z)=I(X;Y,Z)=I(X;Y)+I(X;Z\mid Y)

Per la relació $X\rightarrow Y\rightarrow Z$ , sabem que $X$ i $Z$ són condicionament independents, donada $Y$ , que implica la informació mútua condicional, $I(X;Z\mid Y)=0$ . Aleshores, la desigualtat de processament de dades se segueix de la no-negativitat de $I(X;Y\mid Z)\geq 0$ .

Referències

↑ Beaudry, Normand «An intuitive proof of the data processing inequality». Quantum Information & Computation, 12, 5-6, 2012, pàg. 432–441. DOI: 10.26421/QIC12.5-6-4.
↑ ^2,0 ^2,1 Lutkevich, Ben. «Model collapse explained: How synthetic training data breaks AI». TechTarget, 2023. [Consulta: 26 juliol 2024].
↑ Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson & Yarin Gal «AI models collapse when trained on recursively generated data». Nature, 631, 2024, pàg. 755–759 [Consulta: 26 juliol 2024].
↑ Stock, Petra. «Degenerative AI: Researchers say training artificial intelligence models on machine-generated data leads to model collapse». Cosmos. [Consulta: 26 juliol 2024].
↑ Kirsch, Andreas. «Bridging the Data Processing Inequality and Function-Space Variational Inference». ICLR Blogposts. University of Oxford, 2024. [Consulta: 26 juliol 2024].
↑ Cover. Elements of information theory. John Wiley & Sons, 2012.

[1] Beaudry, Normand «An intuitive proof of the data processing inequality». Quantum Information & Computation, 12, 5-6, 2012, pàg. 432–441. DOI: 10.26421/QIC12.5-6-4.

[Lutkevich-2] 2,0 ^2,1 Lutkevich, Ben. «Model collapse explained: How synthetic training data breaks AI». TechTarget, 2023. [Consulta: 26 juliol 2024].

[3] Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson & Yarin Gal «AI models collapse when trained on recursively generated data». Nature, 631, 2024, pàg. 755–759 [Consulta: 26 juliol 2024].

[4] Stock, Petra. «Degenerative AI: Researchers say training artificial intelligence models on machine-generated data leads to model collapse». Cosmos. [Consulta: 26 juliol 2024].

[5] Kirsch, Andreas. «Bridging the Data Processing Inequality and Function-Space Variational Inference». ICLR Blogposts. University of Oxford, 2024. [Consulta: 26 juliol 2024].

[6] Cover. Elements of information theory. John Wiley & Sons, 2012.

[1]

[2]

[3]

[4]

[5]

[6]