Aproximació de Laplace
L'aproximació de Laplace proporciona una expressió analítica per a una distribució de probabilitat posterior ajustant una distribució gaussiana amb una mitjana igual a la solució MAP i una precisió igual a la informació de Fisher observada.[1][2] L'aproximació està justificada pel teorema de Bernstein–von Mises, que afirma que en condicions de regularitat el posterior convergeix a un gaussià en mostres grans.[3][4]
Per exemple, un model de classificació o regressió (possiblement no lineal) amb un conjunt de dades que inclou entrades i sortides té un vector de paràmetres (desconegut). de llargada . Es denota la probabilitat i el paràmetre anterior . Suposem que es vol aproximar la densitat conjunta de sortides i paràmetres
L'articulació és igual al producte de la versemblança i l'anterior i per la regla de Bayes, igual al producte de la versemblança marginal i posterior . Vist en funció de l'articulació és una densitat no normalitzada. En l'aproximació de Laplace aproximem l'articulació mitjançant una gaussiana no normalitzada , on fem servir per indicar la densitat aproximada, per a la densitat no normalitzada i és una constant (independent de ). Des de la probabilitat marginal no depèn del paràmetre i el posterior es normalitza podem identificar-los immediatament i de la nostra aproximació, respectivament. L'aproximació de Laplace és
on hem definit
on és la ubicació d'un mode de la densitat objectiu conjunta, també conegut com a màxim a posteriori o punt MAP i és el matriu definida positiva de segones derivades de la densitat objectiu de l'articulació negatiu al mode . Així, l'aproximació gaussiana coincideix amb el valor i la curvatura de la densitat objectiu no normalitzada en el mode. El valor de normalment es troba utilitzant un mètode basat en gradients, per exemple, el mètode de Newton. En resum, tenim
per a la part posterior aproximada i la probabilitat logarítmica marginal aproximada respectivament. En el cas especial de la regressió lineal bayesiana amb un a priori gaussià, l'aproximació és exacta. Les principals debilitats de l'aproximació de Laplace són que és simètrica al voltant del mode i que és molt local: tota l'aproximació es deriva de propietats en un sol punt de la densitat objectiu. El mètode de Laplace és àmpliament utilitzat i va ser pioner en el context de les xarxes neuronals per David MacKay, [5] i per als processos gaussians per Williams i Barber.[6]
Referències
[modifica]- ↑ Kass, Robert E. «Laplace’s method in Bayesian analysis». A: Statistical Multiple Integration. 115, 1991, p. 89–100 (Contemporary Mathematics). DOI 10.1090/conm/115/07. ISBN 0-8218-5122-5.
- ↑ MacKay, David J. C. «Information Theory, Inference and Learning Algorithms, chapter 27: Laplace's method» (en anglès).
- ↑ Walker, A. M. Journal of the Royal Statistical Society, 31, 1, 1969, pàg. 80–88. JSTOR: 2984328.
- ↑ Kass, Robert E. «The Validity of Posterior Expansions Based on Laplace's Method». A: Geisser. Bayesian and Likelihood Methods in Statistics and Econometrics (en anglès). Elsevier, 1990, p. 473–488. ISBN 0-444-88376-2.
- ↑ MacKay, David J. C. Neural Computation, 4, 3, 1992, pàg. 415–447. DOI: 10.1162/neco.1992.4.3.415.
- ↑ Williams, Christopher K. I.; Barber, David PAMI, 20, 12, 1998, pàg. 1342–1351. DOI: 10.1109/34.735807.