Inception Score
L'Inception Score (IS) és un algorisme que s'utilitza per avaluar la qualitat de les imatges creades per un model d'imatge generativa com una xarxa adversa generativa (GAN). La puntuació es calcula a partir de la sortida d'un model de classificació d'imatges Inceptionv3 preentrenat i separat aplicat a una mostra d'imatges (normalment unes 30.000) generades pel model generatiu. La puntuació inicial es maximitza quan es compleixen les condicions següents: [1]
- Es minimitza l'entropia de la distribució d'etiquetes predita pel model Inceptionv3 per a les imatges generades. En altres paraules, el model de classificació prediu amb confiança una sola etiqueta per a cada imatge. Intuïtivament, això correspon al desideratum que les imatges generades siguin "nítids" o "distintes".
- Les prediccions del model de classificació es distribueixen uniformement en totes les etiquetes possibles. Això correspon al desideratum que la sortida del model generatiu és "diversa".[2]
Ha estat una mica substituït per la distància inicial de Fréchet relacionada. Mentre que l'Inception Score només avalua la distribució de les imatges generades, el FID compara la distribució d'imatges generades amb la distribució d'un conjunt d'imatges reals ("veritat bàsica").[3]
Definició
[modifica]Que hi hagi dos espais, l'espai de les imatges i l'espai de les etiquetes . L'espai de les etiquetes és finit.
Deixar ser una distribució de probabilitat sobre que volem jutjar.
Sigui un discriminador una funció del tipuson és el conjunt de totes les distribucions de probabilitat sobre . Per a qualsevol imatge , i qualsevol etiqueta , deixar sigui la probabilitat que aquesta imatge té etiqueta , segons el discriminador. Normalment s'implementa com una xarxa Inception-v3 entrenada a ImageNet. La puntuació inicial de relatiu a ésLes reescriptures equivalents inclouen no és negatiu per la desigualtat de Jensen. Pseudocodi:
« | INPUT discriminador .
INPUT generador . Sample images from generator. Calcular p_{dis}(./x_i), la distribució de probabilitat sobre les la imatge x_i. Sumar els resultats per obtenir , una estimació empírica de . Mostrejar més imatges del generador, i calcular D_{KL} \left(p_{dis}(\cdot | x_i) \| \hat p\right). Fer la mitjar dels resultats, i fer exponencial. RETORNA el resultat. |
» |
Interpretació
[modifica]Una puntuació inicial més alta s'interpreta com a "millor", ja que significa això és una col·lecció d'imatges "nítids i distintes".
, on és el nombre total d'etiquetes possibles.
si per gairebé tots Això significa és completament "indistint". És a dir, per a qualsevol imatge mostrat de , el discriminador retorna exactament les mateixes prediccions d'etiquetes . La puntuació inicial més alta s'aconsegueix si i només si les dues condicions són certes:
- Per quasi tots , la distribució es concentra en una sola etiqueta. Això és, . És a dir, cada imatge presa de mostres està exactament classificat pel discriminador.
- Per a cada etiqueta , la proporció d'imatges generades etiquetades com a és exactament . És a dir, les imatges generades es distribueixen per igual en totes les etiquetes.[4]
Referències
[modifica]- ↑ Mack, David. «A simple explanation of the Inception Score» (en anglès), 07-03-2019. [Consulta: 30 setembre 2023].
- ↑ «How to Implement the Inception Score (IS) for Evaluating GANs» (en anglès). https://machinelearningmastery.com.+[Consulta: 30 setembre 2023].
- ↑ «A Note on the Inception Score» (en anglès). https://arxiv.org.+[Consulta: 30 setembre 2023].
- ↑ «Inception Score — PyTorch-Metrics 1.1.0 documentation» (en anglès). [Consulta: 30 setembre 2023].