Disuguaglianza di Cramér-Rao

In statistica, la disuguaglianza di Cramér-Rao, che prende il nome da Harald Cramér e Calyampudi Radhakrishna Rao, afferma che il reciproco della matrice informazione di Fisher $\ {\mathcal {I}(\vartheta )$ per un parametro $\ \vartheta$ costituisce un limite inferiore alla varianza di uno stimatore corretto per il parametro (denotato $\ {\hat {\vartheta$ ):

\ {\mbox{var}\left({\hat {\vartheta }\right)\geq {\frac {1}{\mathcal {I}(\vartheta )}={\frac {1}{n{\mbox{E}\left[\left({\frac {\partial }{\partial \vartheta }\ln f(X;\vartheta )\right)^{2}\right]

In alcuni casi, non esiste uno stimatore corretto che consegue il limite inferiore così stabilito.

Non è infrequente trovare riferimenti alla disuguaglianza di Cramér-Rao come al limite inferiore di Cramér-Rao.

Si ritiene che il matematico francese Maurice René Fréchet sia stato il primo a scoprire e dimostrare questa disuguaglianza.^[1]

Condizioni di regolarità

La disuguaglianza di Cramér-Rao si fonda su due deboli condizioni di regolarità che caratterizzano la funzione di densità $\ f(x;\vartheta )$ , e lo stimatore adottato, $\ T(X)$ . Tali condizioni richiedono che:

L'informazione di Fisher sia sempre definita; ciò equivale a richiedere che, per ogni $\ x$ tale che $\ f(x;\vartheta )>0$ ,

\ {\frac {\partial }{\partial \vartheta }\ln f(x;\vartheta )<\infty

Le operazioni di integrazione rispetto a $\ x$ e di derivazione rispetto a $\ \vartheta$ possano essere scambiate all'interno del valore atteso dello stimatore $\ T(X)$ , ossia:

\ {\frac {\partial }{\partial \vartheta }\left[\int T(x)f(x;\vartheta )dx\right]=\int T(x)\left[{\frac {\partial }{\partial \vartheta }f(x;\vartheta )\right]dx

ogniqualvolta il secondo membro della relazione sopra è finito.

Laddove la seconda condizione di regolarità è estesa al secondo ordine di derivazione, è possibile esprimere la disuguaglianza tramite una forma alternativa dell'informazione di Fisher, così che il limite inferiore di Cramér-Rao è dato da:

\ {\mbox{var}\left({\hat {\vartheta }\right)\geq {\frac {1}{\mathcal {I}(\vartheta )}={\frac {1}{-{\mbox{E}\left[{\frac {\partial ^{2}{\partial \vartheta ^{2}\ln f(X;\vartheta )\right]

In alcuni casi, può risultare più semplice applicare la disuguaglianza nella forma testé espressa.

Si osservi che uno stimatore non corretto potrà avere una varianza o uno scarto quadratico medio inferiore al limite di Cramér-Rao; questo perché la disuguaglianza è riferita esclusivamente a stimatori corretti.

Dimostrazione

La dimostrazione della disuguaglianza di Cramér-Rao passa attraverso la verifica di un risultato più generale; per un qualsiasi stimatore (statistica di un campione $\ X$ ) $\ T=t(X)$ , il cui valore atteso è denotato da $\ \psi (\vartheta )$ , e per ogni $\ \vartheta$ :

\ {\mbox{var}(t(X))\geq {\frac {\left[\psi '(\vartheta )\right]^{2}{\mathcal {I}(\vartheta )

La disuguglianza di Cramér-Rao discende direttamente da quest'ultima relazione, come caso particolare.

Sia dunque $\ X$ una variabile casuale, avente funzione di densità $\ f(x;\vartheta )$ . $\ T=t(X)$ è una statistica utilizzata come estimatore del parametro $\ \vartheta$ . Sia inoltre $\ V$ il suo score, o derivata logaritmica rispetto a $\vartheta$ :

\ V={\frac {\partial }{\partial \vartheta }\ln f(X;\vartheta )

Il valore atteso $\ {\mbox{E}(V)$ è nullo. Ciò a sua volta implica che $\ {\mbox{cov}(V,T)={\mbox{E}(VT)-{\mbox{E}(V){\mbox{E}(T)={\mbox{E}(VT)$ . Espandendo quest'ultima espressione, si ha:

\ {\mbox{cov}(V,T)={\mbox{E}\left(T{\frac {\partial }{\partial \vartheta }\ln f(X;\vartheta )\right)

Svolgendo la derivata tramite la regola della catena:

$\ {\frac {\partial }{\partial x}\ln g(x)={\frac {1}{g(x)}{\frac {\partial g}{\partial x$

e conoscendo la definizione di speranza matematica:

\ {\mbox{E}\left(T{\frac {\partial }{\partial \vartheta }\ln f(X;\vartheta )\right)=\int t(x)\left[{\frac {\partial }{\partial \vartheta }f(x;\vartheta )\right]dx={\frac {\partial }{\partial \vartheta }\left[\int t(x)f(x;\vartheta )dx\right]=\psi '(\vartheta )

dal momento che gli operatori di derivazione e integrazione commutano.

Tramite la disuguaglianza di Cauchy-Schwarz si ha inoltre:

\ {\sqrt {\mbox{var}(T){\mbox{var}(V)}\geq \mid {\mbox{cov}(V,T)\mid =\psi '(\vartheta )

dunque:

\ {\mbox{var}(T)\geq {\frac {\left[\psi '(\vartheta )\right]^{2}{\mbox{var}(V)}={\frac {\left[\psi '(\vartheta )\right]^{2}{\mathcal {I}(\vartheta )}=\left[{\frac {\partial }{\partial \vartheta }{\mbox{E}(T)\right]^{2}{\frac {1}{\mathcal {I}(\vartheta )

come volevasi dimostrare. Ora, se $\ T$ è uno stimatore corretto per $\ \vartheta$ , ${\mbox{E}(T)=\vartheta$ , e $\ \psi '(\vartheta )=1$ ; dunque la relazione sopra diviene:

\ {\mbox{var}(T)\geq {\frac {1}{\mathcal {I}(\vartheta )

ossia la disuguaglianza di Cramér-Rao.

Estensione a più parametri

Al fine di estendere la disuguaglianza di Cramér-Rao al caso di un vettore di parametri, si definisca il vettore colonna:

{\boldsymbol {\theta }=\left[\vartheta _{1},\vartheta _{2},\dots ,\vartheta _{d}\right]'\in \mathbb {R} ^{d

e sia ad esso associata una funzione di densità $f(x;{\boldsymbol {\theta })$ che soddisfi le condizioni di regolarità elemento per elemento.

L'informazione di Fisher $\ {\mathcal {I}({\boldsymbol {\theta })$ è allora una matrice di dimensioni $\ d\times d$ , il cui generico elemento $\ (m,k)$ è definito da:

\ {\mathcal {I}_{m,k}={\mbox{E}\left[{\frac {\partial }{\partial \vartheta _{m}\ln f\left(x;{\boldsymbol {\theta }\right){\frac {\partial }{\partial \vartheta _{k}\ln f\left(x;{\boldsymbol {\theta }\right)\right]

La disuguaglianza di Cramér-Rao è dunque formulata come:

{\mbox{cov}_{\boldsymbol {\theta }\left({\boldsymbol {T}(X)\right)\geq {\frac {\partial {\boldsymbol {\psi }\left({\boldsymbol {\theta }\right)}{\partial {\boldsymbol {\theta }^{T}{\mathcal {I}\left({\boldsymbol {\theta }\right)^{-1}{\frac {\partial {\boldsymbol {\psi }\left({\boldsymbol {\theta }\right)'}{\partial {\boldsymbol {\theta

dove:

${\boldsymbol {T}(X)={\begin{bmatrix}T_{1}(X)&T_{2}(X)&\cdots &T_{d}(X)\end{bmatrix}'$
${\boldsymbol {\psi }=\mathrm {E} \left[{\boldsymbol {T}(X)\right]={\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }\right)&\psi _{2}\left({\boldsymbol {\theta }\right)&\cdots &\psi _{d}\left({\boldsymbol {\theta }\right)\end{bmatrix}'$
${\frac {\partial {\boldsymbol {\psi }\left({\boldsymbol {\theta }\right)}{\partial {\boldsymbol {\theta }'}={\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }\right)\\\psi _{2}\left({\boldsymbol {\theta }\right)\\\vdots \\\psi _{d}\left({\boldsymbol {\theta }\right)\end{bmatrix}{\begin{bmatrix}{\frac {\partial }{\partial \vartheta _{1}&{\frac {\partial }{\partial \vartheta _{2}&\cdots &{\frac {\partial }{\partial \vartheta _{d}\end{bmatrix}={\begin{bmatrix}{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{1}&{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{2}&\cdots &{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{d}\\{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{1}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{2}&\cdots &{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{d}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{1}&{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{2}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{d}\end{bmatrix$
${\frac {\partial {\boldsymbol {\psi }\left({\boldsymbol {\theta }\right)'}{\partial {\boldsymbol {\theta }={\begin{bmatrix}{\frac {\partial }{\partial \vartheta _{1}\\{\frac {\partial }{\partial \vartheta _{2}\\\vdots \\{\frac {\partial }{\partial \vartheta _{d}\end{bmatrix}{\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }\right)&\psi _{2}\left({\boldsymbol {\theta }\right)&\cdots &\psi _{d}\left({\boldsymbol {\theta }\right)\end{bmatrix}={\begin{bmatrix}{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{1}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{1}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{1}\\{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{2}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{2}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{2}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{d}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{d}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }\right)}{\partial \vartheta _{d}\end{bmatrix$

e $\ {\mbox{cov}_{\boldsymbol {\theta }\left({\boldsymbol {T}(X)\right)$ è una matrice semidefinita positiva, ossia tale per cui $\ x'{\mbox{cov}_{\boldsymbol {\theta }\left({\boldsymbol {T}(X)\right)x\geq 0\ \forall \ x\in \mathbb {R} ^{d},\ x\neq \mathbf {0}$ .

Se $\ {\boldsymbol {T}(X)={\begin{bmatrix}T_{1}(X)&T_{2}(X)&\cdots &T_{d}(X)\end{bmatrix}'$ è uno stimatore corretto, e dunque $\ {\boldsymbol {\psi }({\boldsymbol {\theta })={\boldsymbol {\theta$ , la disuguaglianza di Cramér-Rao è:

\ {\mbox{cov}_{\boldsymbol {\theta }({\boldsymbol {T}(X))\geq {\mathcal {I}({\boldsymbol {\theta })^{-1

La disuguaglianza stessa è da intendersi nel senso che la differenza tra il primo e il secondo membro è ancora una matrice semidefinita positiva.

Disuguaglianza di Cramér-Rao ed efficienza

La disuguaglianza di Cramér-Rao è strettamente legata al concetto di efficienza di uno stimatore. In particolare, è possibile definire una misura di efficienza per uno stimatore $\ T(X)$ per il parametro (o vettore di parametri) $\ \vartheta$ , come:

\ e(T)={\frac {\frac {1}{\mathcal {I}(\vartheta )}{\mbox{var}(T)

ossia la minima varianza possibile per uno stimatore corretto, basata sulla disuguaglianza di Cramér-Rao, rapportata all'effettiva varianza. In base alla disuguaglianza di Cramér-Rao, ovviamente $\ e(T)\leq 1$ .

Illustrazione del risultato

Si illustra il significato della disuguaglianza di Cramér-Rao tramite un esempio basato sulla variabile casuale normale multivariata. Sia un vettore aleatorio $\ \mathbf {x} \in \mathbb {R} ^{d$ , tale che:

\ \mathbf {x} \sim N\left(\mu ({\boldsymbol {\theta }),\Sigma ({\boldsymbol {\theta })\right),\ \mu ({\boldsymbol {\theta })\in \mathbb {R} ^{d},\ \Sigma ({\boldsymbol {\theta })\in \mathbb {R} ^{d\times d

dove $\ N(\cdot )$ denota la distribuzione normale; la funzione di densità multivariata associata è:

\ f_{\mathbf {X} }(\mathbf {x} ;{\boldsymbol {\theta })={\frac {1}{\sqrt {(2\pi )^{d}|\Sigma |}\exp \left\{-{\frac {1}{2}(\mathbf {x} -\mu )'\Sigma ^{-1}(\mathbf {x} -\mu )\right\

La matrice informazione di Fisher ha generico elemento $\ (m,k)$ :

\ {\mathcal {I}({\boldsymbol {\theta })_{m,k}={\frac {\partial \mu '}{\partial \vartheta _{m}\Sigma ^{-1}{\frac {\partial \mu }{\partial \mu _{k}+{\frac {1}{2}{\mbox{tr}\left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{m}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{k}\right)

dove $\ {\mbox{tr}(\cdot )$ denota l'operatore traccia di una matrice.

Si consideri caso di un vettore aleatorio gaussiano come sopra, di dimensione $\ n$ , con media nulla ed elementi indipendenti aventi ciascuno varianza $\ \sigma ^{2$ :

\ x\sim N(\mathbf {0} ,\sigma ^{2}I)

La matrice informazione di Fisher è allora $\ 1\times 1$ :

\ {\mathcal {I}(\sigma ^{2})={\frac {1}{2}{\mbox{tr}\left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{m}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{k}\right)={\frac {1}{2\sigma ^{2}{\mbox{tr}(I)={\frac {n}{2\sigma ^{2

Dunque il limite inferiore di Cramér-Rao per la varianza di uno stimatore $\ T_{\sigma ^{2$ per $\ \sigma ^{2$ è dato da:

\ {\mbox{var}(T_{\sigma ^{2})\geq {\frac {2\sigma ^{2}{n

Giova osservare che tale limite è pari alla varianza teorica dello stimatore di massima verosimiglianza per il parametro $\ \sigma ^{2$ nelle ipotesi presentate.

Note

^ Wiebe R. Pestman, Mathematical Statistics: An Introduction, Walter de Gruyter, 1998, ISBN 3-11-015357-2, p. 118.

Bibliografia

D.C. Boes, F.A. Graybill, A.M. Mood (1988), Introduzione alla Statistica, McGraw-Hill Libri Italia, ISBN 88-386-0661-7, un testo di riferimento per i fondamenti della statistica matematica; la disuguaglianza di Cramér-Rao è trattata nei capitoli sui metodi di ricerca degli stimatori.
Alexander Craig Aitken e Harold Silverstone, "On the Estimation of Statistical Parameters", in Proceedings of the Royal Society of Edinburgh, 1942, vol. 61, pp. 186-194, dove gli autori sviluppano idee di Ronald Fisher descrivendo un caso particolare di quella che sarebbe diventate la Disuguaglianza di Cramèr-Rao

Voci correlate

Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica

[1] Wiebe R. Pestman, Mathematical Statistics: An Introduction, Walter de Gruyter, 1998, ISBN 3-11-015357-2, p. 118.

[1]