Vés al contingut

Estimació multivariant de la densitat del nucli

De la Viquipèdia, l'enciclopèdia lliure

L'estimació de la densitat del nucli és una tècnica no paramètrica per a l'estimació de la densitat, és a dir, l'estimació de les funcions de densitat de probabilitat, que és una de les qüestions fonamentals de l'estadística. Es pot veure com una generalització de l'estimació de la densitat de l'histograma amb propietats estadístiques millorades. A part dels histogrames, altres tipus d'estimadors de densitat inclouen sèries paramètriques, spline, wavelet i Fourier. Els estimadors de densitat de nucli es van introduir per primera vegada a la literatura científica per a dades univariants als anys 50 i 60 [1][2] i posteriorment s'han adoptat àmpliament. Aviat es va reconèixer que els estimadors anàlegs per a dades multivariants serien una addició important a les estadístiques multivariables. A partir de la investigació realitzada als anys 90 i 2000, l'estimació de la densitat del nucli multivariant ha assolit un nivell de maduresa comparable als seus homòlegs univariants.[3]

Left. Histogram with anchor point at (−1.5, -1.5). Right. Histogram with anchor point at (−1.625, −1.625). Both histograms have a bin width of 0.5, so differences in appearances of the two histograms are due to the placement of the anchor point.
Comparació d'histogrames 2D. Esquerra. Histograma amb punt d'ancoratge a (−1,5, -1,5). Dret. Histograma amb punt d'ancoratge a (−1,625, −1,625). Tots dos histogrames tenen una amplada d'enllaç de 0,5, de manera que les diferències d'aparença dels dos histogrames es deuen a la col·locació del punt d'ancoratge.

Motivació

[modifica]
Left. Individual kernels. Right. Kernel density estimate.
Construcció de l'estimació de la densitat del nucli 2D. Esquerra. Nuclis individuals. Dret. Estimació de la densitat del nucli.

Prenem un conjunt de dades bivariades sintètics il·lustratiu de 50 punts per il·lustrar la construcció d'histogrames. Això requereix l'elecció d'un punt d'ancoratge (la cantonada inferior esquerra de la quadrícula de l'histograma). Per a l'histograma de l'esquerra, triem (−1,5, −1,5): per al de la dreta, desplacem el punt d'ancoratge 0,125 en ambdues direccions a (−1,625, −1,625). Tots dos histogrames tenen una amplada de safata de 0,5, de manera que les diferències només es deuen al canvi en el punt d'ancoratge. La codificació de colors indica el nombre de punts de dades que cauen en un contenidor: 0=blanc, 1=groc pàl·lid, 2=groc brillant, 3=taronja, 4=vermell. L'histograma esquerre sembla indicar que la meitat superior té una densitat més alta que la meitat inferior, mentre que el contrari és el cas de l'histograma de la dreta, confirmant que els histogrames són molt sensibles a la col·locació del punt d'ancoratge.[4]

Una possible solució a aquest problema de col·locació del punt d'ancoratge és eliminar completament la graella de classificació d'histogrames. A la figura de l'esquerra de sota, un nucli (representat per les línies grises) està centrat en cadascun dels 50 punts de dades anteriors. El resultat de la suma d'aquests nuclis es dona a la figura de la dreta, que és una estimació de la densitat del nucli. La diferència més sorprenent entre les estimacions de densitat del nucli i els histogrames és que els primers són més fàcils d'interpretar ja que no contenen artificis induïts per una graella de binning. Els contorns de colors corresponen a la regió més petita que conté la massa de probabilitat respectiva: vermell = 25%, taronja + vermell = 50%, groc + taronja + vermell = 75%, indicant així que una sola regió central conté la densitat més alta.

Referències

[modifica]
  1. Rosenblatt, M. Annals of Mathematical Statistics, 27, 3, 1956, pàg. 832–837. DOI: 10.1214/aoms/1177728190 [Consulta: lliure].
  2. Parzen, E. Annals of Mathematical Statistics, 33, 3, 1962, pàg. 1065–1076. DOI: 10.1214/aoms/1177704472 [Consulta: lliure].
  3. Simonoff, J.S.. Smoothing Methods in Statistics (en anglès). Springer, 1996. ISBN 978-0-387-94716-7. 
  4. Silverman, B.W.. Density Estimation for Statistics and Data Analysis (en anglès). Chapman & Hall/CRC, 1986, p. 7–11. ISBN 978-0-412-24620-3.