Escalat Platt

En l'aprenentatge automàtic, l'escalat o calibratge Platt és una manera de transformar els resultats d'un model de classificació en una distribució de probabilitat sobre classes. El mètode va ser inventat per John Platt en el context de màquines vectorials de suport, ^[1] substituint un mètode anterior per Vapnik, però es pot aplicar a altres models de classificació. L'escala de Platt funciona ajustant un model de regressió logística a les puntuacions d'un classificador.^[2]

Descripció

Considereu el problema de la classificació binària : per a les entrades $x$ , volem determinar si pertanyen a una de les dues classes, etiquetades arbitràriament $+1$ i $-1$ . Suposem que el problema de classificació es resoldrà amb una funció de valor real $f$ , predint una etiqueta de classe $y = sign(f (x))$ . Per a molts problemes, és convenient obtenir una probabilitat $P(y=1|x)$ , és a dir, una classificació que no només dona una resposta, sinó també un grau de certesa sobre la resposta. Alguns models de classificació no proporcionen aquesta probabilitat o donen estimacions de probabilitat pobres.

L'escalat de Platt és un algorisme per resoldre el problema esmentat anteriorment. Produeix estimacions de probabilitat

$\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}$

és a dir, una transformació logística de les puntuacions del classificador $f (x)$ , on $A$ i $B$ són dos paràmetres escalars que s'aprenen per l'algorisme. Tingueu en compte que ara es poden fer prediccions segons $y=1{\text{ iff }}P(y=1|x)>{\frac {1}{2}};$ si $B\neq 0,$ les estimacions de probabilitat contenen una correcció en comparació amb l'antiga funció de decisió $y = sign(f (x))$ .^[3]

Els paràmetres $A$ i $B$ s'estimen utilitzant un mètode de màxima versemblança que optimitza el mateix conjunt d'entrenament que el del classificador original $f$ . Per evitar l'ajustament excessiu a aquest conjunt, es pot utilitzar un conjunt de calibratge retingut o una validació creuada, però Platt suggereix, a més, transformar les etiquetes $y$ per orientar les probabilitats.

t_{+}={\frac {N_{+}+1}{N_{+}+2}}

per a mostres positives (

y = 1

), i

t_{-}={\frac {1}{N_{-}+2}}

per a mostres negatives,

y = -1

.

Aquí, $N +$ i $N -$ són el nombre de mostres positives i negatives, respectivament. Aquesta transformació segueix aplicant la regla de Bayes a un model de dades fora de la mostra que té una prioritat uniforme sobre les etiquetes.^[4] Les constants 1 i 2, al numerador i al denominador respectivament, es deriven de l'aplicació del suavitzat de Laplace.

El mateix Platt va suggerir utilitzar l'algorisme de Levenberg-Marquardt per optimitzar els paràmetres, però més tard es va proposar un algorisme de Newton que hauria de ser més estable numèricament.^[5]

Anàlisi

S'ha demostrat que l'escala de Platt és eficaç per als SVM i altres tipus de models de classificació, inclosos els models potenciats i fins i tot els classificadors Bayes ingenus, que produeixen distribucions de probabilitat distorsionades. És particularment eficaç per a mètodes de marge màxim com els SVM i els arbres augmentats, que mostren distorsions sigmoïdals en les seves probabilitats previstes, però té menys efecte amb models ben calibrats com ara regressió logística, perceptrons multicapa i boscos aleatoris.

Un enfocament alternatiu per al calibratge de probabilitats és ajustar un model de regressió isotònica a un model de probabilitat mal calibrat. S'ha demostrat que això funciona millor que l'escala de Platt, en particular quan hi ha prou dades d'entrenament disponibles.

Referències

↑ Platt, John Advances in Large Margin Classifiers, 10, 3, 1999, pàg. 61–74.
↑ Osorio, Jacobo. «An introduction to calibration (part II): Platt scaling, isotonic regression, and beta calibration.» (en anglès americà), 04-05-2022. [Consulta: 11 maig 2024].
↑ Olivier Chapelle; Vladimir Vapnik; Olivier Bousquet; Sayan Mukherjee Machine Learning, 46, 2002, pàg. 131–159. DOI: 10.1023/a:1012450327387 [Consulta: free].
↑ Platt, John Advances in Large Margin Classifiers, 10, 3, 1999, pàg. 61–74.
↑ Lin, Hsuan-Tien; Lin, Chih-Jen; Weng, Ruby C. Machine Learning, 68, 3, 2007, pàg. 267–276. DOI: 10.1007/s10994-007-5018-6 [Consulta: free].

[platt99-1] Platt, John Advances in Large Margin Classifiers, 10, 3, 1999, pàg. 61–74.

[2] Osorio, Jacobo. «An introduction to calibration (part II): Platt scaling, isotonic regression, and beta calibration.» (en anglès americà), 04-05-2022. [Consulta: 11 maig 2024].

[3] Olivier Chapelle; Vladimir Vapnik; Olivier Bousquet; Sayan Mukherjee Machine Learning, 46, 2002, pàg. 131–159. DOI: 10.1023/a:1012450327387 [Consulta: free].

[platt992-4] Platt, John Advances in Large Margin Classifiers, 10, 3, 1999, pàg. 61–74.

[5] Lin, Hsuan-Tien; Lin, Chih-Jen; Weng, Ruby C. Machine Learning, 68, 3, 2007, pàg. 267–276. DOI: 10.1007/s10994-007-5018-6 [Consulta: free].

[1]

[2]

[3]

[4]

[5]