Basic Concepts#
假设连续型随机变量 $(X,Y)$ 的联合概率密度函数(joint probability density function)为 $p (x,y)$
$X$ 的边缘概率密度函数(marginal probability density function)为
Copy p X ( x ) = ∫ − ∞ ∞ p ( x , y ) d y p_{X}(x)=\int_{-\infty}^{\infty}p(x,y)dy p X ( x ) = ∫ − ∞ ∞ p ( x , y ) d y
$X$ 的期望(expectation)为
Copy E ( X ) ≡ ∫ x x ⋅ p X ( x ) d x E(X)\equiv \int_{x}x\cdot p_X(x)dx E ( X ) ≡ ∫ x x ⋅ p X ( x ) d x
$Y$ 关于 $X$ 的条件概率密度函数(conditional probability density function)为
Copy p Y ∣ X ( x , y ) = p ( x , y ) p X ( x , y ) p_{Y\mid X}(x,y)=\frac{p(x,y)}{p_{X}(x,y)} p Y ∣ X ( x , y ) = p X ( x , y ) p ( x , y )
贝叶斯定理(Bayes' theorem)
Copy p ( x , y ) = p Y ∣ X ( x , y ) ⋅ p X ( x ) = p X ∣ Y ( x , y ) ⋅ p Y ( y ) p(x,y)=p_{{Y\mid X}}(x,y)\cdot p_{X}(x)=p_{X\mid Y}(x,y)\cdot p_{Y}(y) p ( x , y ) = p Y ∣ X ( x , y ) ⋅ p X ( x ) = p X ∣ Y ( x , y ) ⋅ p Y ( y )
$Y$ 关于 $X$ 的条件期望(conditional expectation)为
Copy E [ Y ∣ X = x ] = ∫ y y ⋅ p Y ∣ X ( x , y ) d y E[Y\mid X=x]=\int_{y}y\cdot p_{Y\mid X}(x,y)dy E [ Y ∣ X = x ] = ∫ y y ⋅ p Y ∣ X ( x , y ) d y
对于任意一个实数 $x$ 都仅存在一个实数 $E [Y\mid X=x]$ 与之对应,因此也可以称之为条件期望函数(conditional expectation function);若写为 $E [Y\mid X]$ 则表示随机变量到随机变量的映射。
Law of Iterated Expectations#
Theorem
Copy E [ E ( Y ∣ X ) ] = E [ Y ] E[E(Y\mid X)]=E[Y] E [ E ( Y ∣ X )] = E [ Y ]
Proof
Copy E [ E ( Y ∣ X ) ] = ∫ x E ( Y ∣ X ) p X ( x ) d x = ∫ x ∫ y y ⋅ p Y ∣ X ( x , y ) d y p X ( x ) d x = ∫ x ∫ y y ⋅ p X ∣ Y ( x , y ) p Y ( y ) d y d x = ∫ x p X ∣ Y ( x , y ) d x ∫ y y ⋅ p Y ( y ) d y = ∫ y y ⋅ p Y ( y ) d y = E [ Y ] \begin{align*}
E[E(Y\mid X)]&=\int_{x}E(Y\mid X)p_{X}(x)\ dx\\
&=\int_{x}\int_{y}y\cdot p_{Y\mid X}(x,y)dy\ p_{X}(x)\ dx\\
&=\int_{x}\int_{y}y\cdot p_{X\mid Y}(x,y)p_{Y}(y)\ dy\ dx\\
&=\int_{x}p_{X\mid Y}(x,y)\ dx\int_{y}y\cdot p_{Y}(y)dy\\
&=\int_{y}y\cdot p_{Y}(y)dy\\
&=E[Y]
\end{align*} E [ E ( Y ∣ X )] = ∫ x E ( Y ∣ X ) p X ( x ) d x = ∫ x ∫ y y ⋅ p Y ∣ X ( x , y ) d y p X ( x ) d x = ∫ x ∫ y y ⋅ p X ∣ Y ( x , y ) p Y ( y ) d y d x = ∫ x p X ∣ Y ( x , y ) d x ∫ y y ⋅ p Y ( y ) d y = ∫ y y ⋅ p Y ( y ) d y = E [ Y ]
Best Predictor#
统计学的一个基本问题是如何找到一个关于 $X$ 的函数来预测 $Y$ ,下面证明条件期望函数能够使得预测误差平方的期望最小。
Theorem
令 $g (X)$ 为关于 $X$ 的任意函数,则
Copy E [ Y ∣ X ] = arg min g E [ ( Y − g ( X ) ) 2 ] E[Y|X]=\mathop{\arg\min}\limits_g E[(Y-g(X))^2] E [ Y ∣ X ] = g arg min E [( Y − g ( X ) ) 2 ]
Proof
Copy E [ ( Y − g ( X ) ) 2 ] = E [ ( Y − E [ Y ∣ X ] + E [ Y ∣ X ] − g ( X ) ) 2 ] = E [ ( Y − E [ Y ∣ X ] ) 2 ] + E [ ( E [ Y ∣ X ] − g ( X ) ) 2 ] + + 2 E [ ( Y − E [ Y ∣ X ] ) ( E [ Y ∣ X ] − g ( X ) ) ] \begin{align*}
E[(Y-g(X))^2]
&=E[(Y-E[Y\mid X]+E[Y\mid X]-g(X))^2] \\
&=E[(Y-E[Y\mid X])^2]+E[(E[Y\mid X]-g(X))^2]+ \\
&+2E[(Y-E[Y\mid X])(E[Y\mid X]-g(X))]
\end{align*} E [( Y − g ( X ) ) 2 ] = E [( Y − E [ Y ∣ X ] + E [ Y ∣ X ] − g ( X ) ) 2 ] = E [( Y − E [ Y ∣ X ] ) 2 ] + E [( E [ Y ∣ X ] − g ( X ) ) 2 ] + + 2 E [( Y − E [ Y ∣ X ]) ( E [ Y ∣ X ] − g ( X ))]
第一项为
Copy E [ ( Y − E [ Y ∣ X ] ) 2 ] = E { ( Y − E [ Y ∣ X ] ) 2 ∣ X } = E { V a r [ Y ∣ X ] } ≥ 0 E[(Y-E[Y\mid X])^2]=E\{(Y-E[Y\mid X])^2|X\}=E\{Var[Y\mid X]\}\ge0 E [( Y − E [ Y ∣ X ] ) 2 ] = E {( Y − E [ Y ∣ X ] ) 2 ∣ X } = E { Va r [ Y ∣ X ]} ≥ 0
最后一项为
Copy 2 E [ ( Y − E [ Y ∣ X ] ) ( E [ Y ∣ X ] − g ( X ) ) ] = 2 E [ E { ( Y − E [ Y ∣ X ] ) ( E [ Y ∣ X ] − g ( X ) ) ∣ X } ] = 2 E [ ( E [ Y ∣ X ] − g ( X ) ) E { Y − E [ Y ∣ X ] ∣ X } ] = 2 E [ ( E [ Y ∣ X ] − g ( X ) ) { E [ Y ∣ X ] − E [ Y ∣ X ] } ] = 0 \begin{align*}
&2E[(Y-E[Y\mid X])(E[Y\mid X]-g(X))] \\
=&2E[E\{(Y-E[Y\mid X])(E[Y\mid X]-g(X))|X\}] \\
=&2E[(E[Y\mid X]-g(X))E\{Y-E[Y\mid X]|X\}] \\
=&2E[(E[Y\mid X]-g(X))\{E[Y\mid X]-E[Y\mid X]\}] \\
=&0
\end{align*} = = = = 2 E [( Y − E [ Y ∣ X ]) ( E [ Y ∣ X ] − g ( X ))] 2 E [ E {( Y − E [ Y ∣ X ]) ( E [ Y ∣ X ] − g ( X )) ∣ X }] 2 E [( E [ Y ∣ X ] − g ( X )) E { Y − E [ Y ∣ X ] ∣ X }] 2 E [( E [ Y ∣ X ] − g ( X )) { E [ Y ∣ X ] − E [ Y ∣ X ]}] 0
因此,取 $g (X)=E [Y\mid X]$ 使得原式取得最小值。
虽然理论上 $E [Y\mid X]$ 就能给出对 $Y$ 的最优预测,但 $E [Y\mid X]$ 的具体函数形式实际上是未知的,因此在实践中有时需要对条件期望函数的形式作出武断的假设。