基本概念#
假設連續型隨機變量 $(X,Y)$ 的聯合概率密度函數(joint probability density function)為 $p (x,y)$
$X$ 的邊緣概率密度函數(marginal probability density function)為
pX(x)=∫−∞∞p(x,y)dy
$X$ 的期望(expectation)為
E(X)≡∫xx⋅pX(x)dx
$Y$ 關於 $X$ 的條件概率密度函數(conditional probability density function)為
pY∣X(x,y)=pX(x,y)p(x,y)
貝葉斯定理(Bayes' theorem)
p(x,y)=pY∣X(x,y)⋅pX(x)=pX∣Y(x,y)⋅pY(y)
$Y$ 關於 $X$ 的條件期望(conditional expectation)為
E[Y∣X=x]=∫yy⋅pY∣X(x,y)dy
對於任意一個實數 $x$ 都僅存在一個實數 $E [Y\mid X=x]$ 與之對應,因此也可以稱之為條件期望函數(conditional expectation function);若寫為 $E [Y\mid X]$ 則表示隨機變量到隨機變量的映射。
迭代期望法則#
定理
E[E(Y∣X)]=E[Y]
證明
E[E(Y∣X)]=∫xE(Y∣X)pX(x) dx=∫x∫yy⋅pY∣X(x,y)dy pX(x) dx=∫x∫yy⋅pX∣Y(x,y)pY(y) dy dx=∫xpX∣Y(x,y) dx∫yy⋅pY(y)dy=∫yy⋅pY(y)dy=E[Y]
最佳預測器#
統計學的一個基本問題是如何找到一個關於 $X$ 的函數來預測 $Y$ ,下面證明條件期望函數能夠使得預測誤差平方的期望最小。
定理
令 $g (X)$ 為關於 $X$ 的任意函數,則
E[Y∣X]=gargminE[(Y−g(X))2]
證明
E[(Y−g(X))2]=E[(Y−E[Y∣X]+E[Y∣X]−g(X))2]=E[(Y−E[Y∣X])2]+E[(E[Y∣X]−g(X))2]++2E[(Y−E[Y∣X])(E[Y∣X]−g(X))]
第一項為
E[(Y−E[Y∣X])2]=E{(Y−E[Y∣X])2∣X}=E{Var[Y∣X]}≥0
最後一項為
====2E[(Y−E[Y∣X])(E[Y∣X]−g(X))]2E[E{(Y−E[Y∣X])(E[Y∣X]−g(X))∣X}]2E[(E[Y∣X]−g(X))E{Y−E[Y∣X]∣X}]2E[(E[Y∣X]−g(X)){E[Y∣X]−E[Y∣X]}]0
因此,取 $g (X)=E [Y\mid X]$ 使得原式取得最小值。
雖然理論上 $E [Y\mid X]$ 就能給出對 $Y$ 的最優預測,但 $E [Y\mid X]$ 的具體函數形式實際上是未知的,因此在實踐中有時需要對條件期望函數的形式作出武斷的假設。