基本概念#
假设连续型随机变量 $(X,Y)$ 的联合概率密度函数为 $p (x,y)$
$X$ 的边缘概率密度函数为
pX(x)=∫−∞∞p(x,y)dy
$X$ 的期望为
E(X)≡∫xx⋅pX(x)dx
$Y$ 关于 $X$ 的条件概率密度函数为
pY∣X(x,y)=pX(x,y)p(x,y)
贝叶斯定理
p(x,y)=pY∣X(x,y)⋅pX(x)=pX∣Y(x,y)⋅pY(y)
$Y$ 关于 $X$ 的条件期望为
E[Y∣X=x]=∫yy⋅pY∣X(x,y)dy
对于任意一个实数 $x$ 都仅存在一个实数 $E [Y\mid X=x]$ 与之对应,因此也可以称之为条件期望函数;若写为 $E [Y\mid X]$ 则表示随机变量到随机变量的映射。
迭代期望定律#
定理
E[E(Y∣X)]=E[Y]
证明
E[E(Y∣X)]=∫xE(Y∣X)pX(x) dx=∫x∫yy⋅pY∣X(x,y)dy pX(x) dx=∫x∫yy⋅pX∣Y(x,y)pY(y) dy dx=∫xpX∣Y(x,y) dx∫yy⋅pY(y)dy=∫yy⋅pY(y)dy=E[Y]
最佳预测器#
统计学的一个基本问题是如何找到一个关于 $X$ 的函数来预测 $Y$ ,下面证明条件期望函数能够使得预测误差平方的期望最小。
定理
令 $g (X)$ 为关于 $X$ 的任意函数,则
E[Y∣X]=gargminE[(Y−g(X))2]
证明
E[(Y−g(X))2]=E[(Y−E[Y∣X]+E[Y∣X]−g(X))2]=E[(Y−E[Y∣X])2]+E[(E[Y∣X]−g(X))2]++2E[(Y−E[Y∣X])(E[Y∣X]−g(X))]
第一项为
E[(Y−E[Y∣X])2]=E{(Y−E[Y∣X])2∣X}=E{Var[Y∣X]}≥0
最后一项为
====2E[(Y−E[Y∣X])(E[Y∣X]−g(X))]2E[E{(Y−E[Y∣X])(E[Y∣X]−g(X))∣X}]2E[(E[Y∣X]−g(X))E{Y−E[Y∣X]∣X}]2E[(E[Y∣X]−g(X)){E[Y∣X]−E[Y∣X]}]0
因此,取 $g (X)=E [Y\mid X]$ 使得原式取得最小值。
虽然理论上 $E [Y\mid X]$ 就能给出对 $Y$ 的最优预测,但 $E [Y\mid X]$ 的具体函数形式实际上是未知的,因此在实践中有时需要对条件期望函数的形式作出武断的假设。