Distribució beta d'entropia diferencial per alfa i beta de l'1 al 5.
Distribució beta d'entropia diferencial per alfa i beta de 0,1 a 5.
L'entropia diferencial (també anomenada entropia contínua ) és un concepte en teoria de la informació que va començar com un intent de Claude Shannon d'estendre la idea d'entropia (Shannon), una mesura de la mitjana (sorpresa) d'una variable aleatòria , a distribucions de probabilitat contínues. Malauradament, Shannon no va derivar aquesta fórmula, i més aviat va suposar que era l'anàleg continu correcte de l'entropia discreta, però no ho és.[ 1] :181–218 La versió contínua real de l'entropia discreta és la densitat limitant de punts discrets (LDDP). L'entropia diferencial (descrita aquí) es troba habitualment a la literatura, però és un cas límit del LDDP i que perd la seva associació fonamental amb l'entropia discreta.
Pel que fa a la teoria de la mesura , l'entropia diferencial d'una mesura de probabilitat és l'entropia relativa negativa d'aquesta mesura a la mesura de Lebesgue , on aquesta última es tracta com si fos una mesura de probabilitat, tot i no estar normalitzada.
Definició
Deixar
X
{\displaystyle X}
ser una variable aleatòria amb una funció de densitat de probabilitat
f
{\displaystyle f}
el suport dels quals és un conjunt
X
{\displaystyle {\mathcal {X}}}
. L' entropia diferencial
h
(
X
)
{\displaystyle h(X)}
o
h
(
f
)
{\displaystyle h(f)}
es defineix com [ 2] :243
h
(
X
)
=
E
[
−
log
(
f
(
X
)
)
]
=
−
∫
X
f
(
x
)
log
f
(
x
)
d
x
{\displaystyle h(X)=\operatorname {E} [-\log(f(X))]=-\int _{\mathcal {X}}f(x)\log f(x)\,dx}
Per a distribucions de probabilitat que no tenen una expressió de funció de densitat explícita, però tenen una expressió de funció quantil explícita,
Q
(
p
)
{\displaystyle Q(p)}
, doncs
h
(
Q
)
{\displaystyle h(Q)}
es pot definir en termes de la derivada de
Q
(
p
)
{\displaystyle Q(p)}
és a dir, la funció de densitat quantil
Q
′
(
p
)
{\displaystyle Q'(p)}
com
h
(
Q
)
=
∫
0
1
log
Q
′
(
p
)
d
p
{\displaystyle h(Q)=\int _{0}^{1}\log Q'(p)\,dp}
Igual que amb el seu analògic discret, les unitats d'entropia diferencial depenen de la base del logaritme , que sol ser 2 (és a dir, les unitats són bits ). Vegeu unitats logarítmiques per als logaritmes presos en diferents bases. Els conceptes relacionats com ara conjunt , entropia diferencial condicional i entropia relativa es defineixen de manera similar. A diferència de l'analògic discret, l'entropia diferencial té un desplaçament que depèn de les unitats utilitzades per mesurar
X
{\displaystyle X}
.[ 3] :183–184 Per exemple, l'entropia diferencial d'una quantitat mesurada en mil·límetres serà log(1000) més que la mateixa quantitat mesurada en metres; una quantitat adimensional tindrà una entropia diferencial de log(1000) més que la mateixa quantitat dividida per 1000.
Cal tenir cura en intentar aplicar les propietats de l'entropia discreta a l'entropia diferencial, ja que les funcions de densitat de probabilitat poden ser superiors a 1. Per exemple, la distribució uniforme
U
(
0
,
1
/
2
)
{\displaystyle {\mathcal {U}}(0,1/2)}
té entropia diferencial negativa ; és a dir, està millor ordenat que
U
(
0
,
1
)
{\displaystyle {\mathcal {U}}(0,1)}
com es mostra ara
∫
0
1
2
−
2
log
(
2
)
d
x
=
−
log
(
2
)
{\displaystyle \int _{0}^{\frac {1}{2}}-2\log(2)\,dx=-\log(2)\,}
sent inferior a la de
U
(
0
,
1
)
{\displaystyle {\mathcal {U}}(0,1)}
que té entropia diferencial zero . Per tant, l'entropia diferencial no comparteix totes les propietats de l'entropia discreta.
Entropies diferencials per a diverses distribucions [ modifica ]
A la taula següent
Γ
(
x
)
=
∫
0
∞
e
−
t
t
x
−
1
d
t
{\displaystyle \Gamma (x)=\int _{0}^{\infty }e^{-t}t^{x-1}dt}
és la funció gamma ,
ψ
(
x
)
=
d
d
x
ln
Γ
(
x
)
=
Γ
′
(
x
)
Γ
(
x
)
{\displaystyle \psi (x)={\frac {d}{dx}}\ln \Gamma (x)={\frac {\Gamma '(x)}{\Gamma (x)}}}
és la funció digamma ,
B
(
p
,
q
)
=
Γ
(
p
)
Γ
(
q
)
Γ
(
p
+
q
)
{\displaystyle B(p,q)={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}}
és la funció beta i γ E és la constant d'Euler .[ 4] :219–230
Nom de la distribució
Funció de densitat de probabilitat (pdf)
Entropia diferencial en nats
Uniforme
f
(
x
)
=
1
b
−
a
{\displaystyle f(x)={\frac {1}{b-a}}}
ln
(
b
−
a
)
{\displaystyle \ln(b-a)\,}
Normal
f
(
x
)
=
1
2
π
σ
2
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
{\displaystyle f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)}
ln
(
σ
2
π
e
)
{\displaystyle \ln \left(\sigma {\sqrt {2\,\pi \,e}}\right)}
Exponencial
f
(
x
)
=
λ
exp
(
−
λ
x
)
{\displaystyle f(x)=\lambda \exp \left(-\lambda x\right)}
1
−
ln
λ
{\displaystyle 1-\ln \lambda \,}
Rayleigh
f
(
x
)
=
x
σ
2
exp
(
−
x
2
2
σ
2
)
{\displaystyle f(x)={\frac {x}{\sigma ^{2}}}\exp \left(-{\frac {x^{2}}{2\sigma ^{2}}}\right)}
1
+
ln
σ
2
+
γ
E
2
{\displaystyle 1+\ln {\frac {\sigma }{\sqrt {2}}}+{\frac {\gamma _{E}}{2}}}
Beta
f
(
x
)
=
x
α
−
1
(
1
−
x
)
β
−
1
B
(
α
,
β
)
{\displaystyle f(x)={\frac {x^{\alpha -1}(1-x)^{\beta -1}}{B(\alpha ,\beta )}}}
for
0
≤
x
≤
1
{\displaystyle 0\leq x\leq 1}
ln
B
(
α
,
β
)
−
(
α
−
1
)
[
ψ
(
α
)
−
ψ
(
α
+
β
)
]
{\displaystyle \ln B(\alpha ,\beta )-(\alpha -1)[\psi (\alpha )-\psi (\alpha +\beta )]\,}
−
(
β
−
1
)
[
ψ
(
β
)
−
ψ
(
α
+
β
)
]
{\displaystyle -(\beta -1)[\psi (\beta )-\psi (\alpha +\beta )]\,}
Cauchy
f
(
x
)
=
γ
π
1
γ
2
+
x
2
{\displaystyle f(x)={\frac {\gamma }{\pi }}{\frac {1}{\gamma ^{2}+x^{2}}}}
ln
(
4
π
γ
)
{\displaystyle \ln(4\pi \gamma )\,}
Chi
f
(
x
)
=
2
2
k
/
2
Γ
(
k
/
2
)
x
k
−
1
exp
(
−
x
2
2
)
{\displaystyle f(x)={\frac {2}{2^{k/2}\Gamma (k/2)}}x^{k-1}\exp \left(-{\frac {x^{2}}{2}}\right)}
ln
Γ
(
k
/
2
)
2
−
k
−
1
2
ψ
(
k
2
)
+
k
2
{\displaystyle \ln {\frac {\Gamma (k/2)}{\sqrt {2}}}-{\frac {k-1}{2}}\psi \left({\frac {k}{2}}\right)+{\frac {k}{2}}}
Chi-quadrat
f
(
x
)
=
1
2
k
/
2
Γ
(
k
/
2
)
x
k
2
−
1
exp
(
−
x
2
)
{\displaystyle f(x)={\frac {1}{2^{k/2}\Gamma (k/2)}}x^{{\frac {k}{2}}\!-\!1}\exp \left(-{\frac {x}{2}}\right)}
ln
2
Γ
(
k
2
)
−
(
1
−
k
2
)
ψ
(
k
2
)
+
k
2
{\displaystyle \ln 2\Gamma \left({\frac {k}{2}}\right)-\left(1-{\frac {k}{2}}\right)\psi \left({\frac {k}{2}}\right)+{\frac {k}{2}}}
Erlang
f
(
x
)
=
λ
k
(
k
−
1
)
!
x
k
−
1
exp
(
−
λ
x
)
{\displaystyle f(x)={\frac {\lambda ^{k}}{(k-1)!}}x^{k-1}\exp(-\lambda x)}
(
1
−
k
)
ψ
(
k
)
+
ln
Γ
(
k
)
λ
+
k
{\displaystyle (1-k)\psi (k)+\ln {\frac {\Gamma (k)}{\lambda }}+k}
F
f
(
x
)
=
n
1
n
1
2
n
2
n
2
2
B
(
n
1
2
,
n
2
2
)
x
n
1
2
−
1
(
n
2
+
n
1
x
)
n
1
+
n
2
2
{\displaystyle f(x)={\frac {n_{1}^{\frac {n_{1}}{2}}n_{2}^{\frac {n_{2}}{2}}}{B({\frac {n_{1}}{2}},{\frac {n_{2}}{2}})}}{\frac {x^{{\frac {n_{1}}{2}}-1}}{(n_{2}+n_{1}x)^{\frac {n_{1}+n2}{2}}}}}
ln
n
1
n
2
B
(
n
1
2
,
n
2
2
)
+
(
1
−
n
1
2
)
ψ
(
n
1
2
)
−
{\displaystyle \ln {\frac {n_{1}}{n_{2}}}B\left({\frac {n_{1}}{2}},{\frac {n_{2}}{2}}\right)+\left(1-{\frac {n_{1}}{2}}\right)\psi \left({\frac {n_{1}}{2}}\right)-}
(
1
+
n
2
2
)
ψ
(
n
2
2
)
+
n
1
+
n
2
2
ψ
(
n
1
+
n
2
2
)
{\displaystyle \left(1+{\frac {n_{2}}{2}}\right)\psi \left({\frac {n_{2}}{2}}\right)+{\frac {n_{1}+n_{2}}{2}}\psi \left({\frac {n_{1}\!+\!n_{2}}{2}}\right)}
Gamma
f
(
x
)
=
x
k
−
1
exp
(
−
x
θ
)
θ
k
Γ
(
k
)
{\displaystyle f(x)={\frac {x^{k-1}\exp(-{\frac {x}{\theta }})}{\theta ^{k}\Gamma (k)}}}
ln
(
θ
Γ
(
k
)
)
+
(
1
−
k
)
ψ
(
k
)
+
k
{\displaystyle \ln(\theta \Gamma (k))+(1-k)\psi (k)+k\,}
Laplace
f
(
x
)
=
1
2
b
exp
(
−
|
x
−
μ
|
b
)
{\displaystyle f(x)={\frac {1}{2b}}\exp \left(-{\frac {|x-\mu |}{b}}\right)}
1
+
ln
(
2
b
)
{\displaystyle 1+\ln(2b)\,}
Logistic
f
(
x
)
=
e
−
x
/
s
s
(
1
+
e
−
x
/
s
)
2
{\displaystyle f(x)={\frac {e^{-x/s}}{s(1+e^{-x/s})^{2}}}}
ln
s
+
2
{\displaystyle \ln s+2\,}
Lognormal
f
(
x
)
=
1
σ
x
2
π
exp
(
−
(
ln
x
−
μ
)
2
2
σ
2
)
{\displaystyle f(x)={\frac {1}{\sigma x{\sqrt {2\pi }}}}\exp \left(-{\frac {(\ln x-\mu )^{2}}{2\sigma ^{2}}}\right)}
μ
+
1
2
ln
(
2
π
e
σ
2
)
{\displaystyle \mu +{\frac {1}{2}}\ln(2\pi e\sigma ^{2})}
Maxwell–Boltzmann
f
(
x
)
=
1
a
3
2
π
x
2
exp
(
−
x
2
2
a
2
)
{\displaystyle f(x)={\frac {1}{a^{3}}}{\sqrt {\frac {2}{\pi }}}\,x^{2}\exp \left(-{\frac {x^{2}}{2a^{2}}}\right)}
ln
(
a
2
π
)
+
γ
E
−
1
2
{\displaystyle \ln(a{\sqrt {2\pi }})+\gamma _{E}-{\frac {1}{2}}}
Generalized normal
f
(
x
)
=
2
β
α
2
Γ
(
α
2
)
x
α
−
1
exp
(
−
β
x
2
)
{\displaystyle f(x)={\frac {2\beta ^{\frac {\alpha }{2}}}{\Gamma ({\frac {\alpha }{2}})}}x^{\alpha -1}\exp(-\beta x^{2})}
ln
Γ
(
α
/
2
)
2
β
1
2
−
α
−
1
2
ψ
(
α
2
)
+
α
2
{\displaystyle \ln {\frac {\Gamma (\alpha /2)}{2\beta ^{\frac {1}{2}}}}-{\frac {\alpha -1}{2}}\psi \left({\frac {\alpha }{2}}\right)+{\frac {\alpha }{2}}}
Pareto
f
(
x
)
=
α
x
m
α
x
α
+
1
{\displaystyle f(x)={\frac {\alpha x_{m}^{\alpha }}{x^{\alpha +1}}}}
ln
x
m
α
+
1
+
1
α
{\displaystyle \ln {\frac {x_{m}}{\alpha }}+1+{\frac {1}{\alpha }}}
Student's t
f
(
x
)
=
(
1
+
x
2
/
ν
)
−
ν
+
1
2
ν
B
(
1
2
,
ν
2
)
{\displaystyle f(x)={\frac {(1+x^{2}/\nu )^{-{\frac {\nu +1}{2}}}}{{\sqrt {\nu }}B({\frac {1}{2}},{\frac {\nu }{2}})}}}
ν
+
1
2
(
ψ
(
ν
+
1
2
)
−
ψ
(
ν
2
)
)
+
ln
ν
B
(
1
2
,
ν
2
)
{\displaystyle {\frac {\nu \!+\!1}{2}}\left(\psi \left({\frac {\nu \!+\!1}{2}}\right)\!-\!\psi \left({\frac {\nu }{2}}\right)\right)\!+\!\ln {\sqrt {\nu }}B\left({\frac {1}{2}},{\frac {\nu }{2}}\right)}
Triangular
f
(
x
)
=
{
2
(
x
−
a
)
(
b
−
a
)
(
c
−
a
)
f
o
r
a
≤
x
≤
c
,
2
(
b
−
x
)
(
b
−
a
)
(
b
−
c
)
f
o
r
c
<
x
≤
b
,
{\displaystyle f(x)={\begin{cases}{\frac {2(x-a)}{(b-a)(c-a)}}&\mathrm {for\ } a\leq x\leq c,\\[4pt]{\frac {2(b-x)}{(b-a)(b-c)}}&\mathrm {for\ } c<x\leq b,\\[4pt]\end{cases}}}
1
2
+
ln
b
−
a
2
{\displaystyle {\frac {1}{2}}+\ln {\frac {b-a}{2}}}
Weibull
f
(
x
)
=
k
λ
k
x
k
−
1
exp
(
−
x
k
λ
k
)
{\displaystyle f(x)={\frac {k}{\lambda ^{k}}}x^{k-1}\exp \left(-{\frac {x^{k}}{\lambda ^{k}}}\right)}
(
k
−
1
)
γ
E
k
+
ln
λ
k
+
1
{\displaystyle {\frac {(k-1)\gamma _{E}}{k}}+\ln {\frac {\lambda }{k}}+1}
Multivariate normal
f
X
(
x
→
)
=
{\displaystyle f_{X}({\vec {x}})=}
exp
(
−
1
2
(
x
→
−
μ
→
)
⊤
Σ
−
1
⋅
(
x
→
−
μ
→
)
)
(
2
π
)
N
/
2
|
Σ
|
1
/
2
{\displaystyle {\frac {\exp \left(-{\frac {1}{2}}({\vec {x}}-{\vec {\mu }})^{\top }\Sigma ^{-1}\cdot ({\vec {x}}-{\vec {\mu }})\right)}{(2\pi )^{N/2}\left|\Sigma \right|^{1/2}}}}
1
2
ln
{
(
2
π
e
)
N
det
(
Σ
)
}
{\displaystyle {\frac {1}{2}}\ln\{(2\pi e)^{N}\det(\Sigma )\}}
↑ Jaynes, E.T. Brandeis University Summer Institute Lectures in Theoretical Physics , 3, sect. 4b, 1963.
↑ Cover , Thomas M. Elements of Information Theory (en anglès). New York: Wiley, 1991. ISBN 0-471-06259-6 .
↑ Gibbs , Josiah Willard . Elementary Principles in Statistical Mechanics, developed with especial reference to the rational foundation of thermodynamics (en anglès). New York: Charles Scribner's Sons, 1902.
↑ Park , Sung Y.; Bera , Anil K. «Còpia arxivada ». Journal of Econometrics , 150, 2, 2009, pàg. 219–230. Arxivat de l'original el 2016-03-07. DOI : 10.1016/j.jeconom.2008.12.014 [Consulta: 2 juny 2011].