Vés al contingut

Distribució multinomial de Dirichlet

De la Viquipèdia, l'enciclopèdia lliure
Infotaula distribució de probabilitatDistribució multinomial de Dirichlet
TipusDistribució de probabilitat composta i distribució conjunta Modifica el valor a Wikidata
Notació
Paràmetres nombre de proves (enter positiu)
Suport
fpm [1]
Esperança matemàtica
Variància
FGM
amb
[1]
FC


amb

[1]
FGP


amb

[1]

En teoria i estadística de probabilitats, la distribució multinomial de Dirichlet és una família de distribucions de probabilitat multivariables discretes sobre un suport finit de nombres enters no negatius. També s'anomena distribució multinomial composta de Dirichlet (DCM) o distribució multivariada de Pólya (en honor a George Pólya).

És una distribució de probabilitat composta, on un vector de probabilitat p s'extreu d'una distribució de Dirichlet amb vector de paràmetres , i una observació extreta d'una distribució multinomial amb vector de probabilitat p i nombre de proves n. El vector de paràmetres de Dirichlet captura la creença prèvia sobre la situació i es pot veure com un pseudocompte: observacions de cada resultat que es produeixen abans que es recullin les dades reals. La combinació correspon a un esquema d'urna Pólya.

Es troba freqüentment en l'estadística bayesiana, l'aprenentatge automàtic, els mètodes empírics de Bayes i l'estadística clàssica com una distribució multinomial sobredispersa.[2][3]

Es redueix a la distribució categòrica com a cas especial quan n = 1. També s'aproxima bé la distribució multinomial arbitràriament per a α gran. El multinomial de Dirichlet és una extensió multivariant de la distribució binomial beta, ja que les distribucions multinomial i Dirichlet són versions multivariables de la distribució binomial i distribucions beta, respectivament.[4]

Especificació

[modifica]

Dirichlet-multinomial com a distribució composta

[modifica]

La distribució de Dirichlet és una distribució conjugada a la distribució multinomial. Aquest fet condueix a una distribució composta analíticament tractable. Per a un vector aleatori de categories compta , distribuït segons una distribució multinomial, la distribució marginal s'obté integrant a la distribució de p que es pot considerar com un vector aleatori seguint una distribució de Dirichlet:

que dona lloc a la següent fórmula explícita:

on es defineix com la suma . Una altra forma per a aquesta mateixa distribució composta, escrita de manera més compacta en termes de la funció beta, B, és la següent:

Usos

[modifica]

La distribució multinomial de Dirichlet s'utilitza en la classificació i agrupació de documents automatitzada, la genètica, l'economia, el modelatge de combat i el màrqueting quantitatiu.[5]

Referències

[modifica]
  1. 1,0 1,1 1,2 1,3 Glüsenkamp «Probabilistic treatment of the uncertainty from the finite size of weighted Monte Carlo data» (en anglès). EPJ Plus, 133(6), 2018. arXiv: 1712.01293. Bibcode: 2018EPJP..133..218G. DOI: 10.1140/epjp/i2018-12042-x.
  2. «The Dirichlet-multinomial distribution» (en anglès). Universitat de Conrent. [Consulta: 8 juliol 2023].
  3. «Dirichlet distribution vs Multinomial distribution?» (en anglès). Stack exchange. [Consulta: 8 juliol 2023].
  4. «Understanding Dirichlet–Multinomial Models» (en anglès). Gregory Gundersen. [Consulta: 8 juliol 2023].
  5. «The Dirichlet Distribution: What Is It and Why Is It Useful?» (en anglès). Built In. [Consulta: 8 juliol 2023].