ecorange

ecorange

00后经济学在读博士生,分享笔记,偶尔闲话

Conditional Expectation Function

Basic Concepts#

假设连续型随机变量 $(X,Y)$ 的联合概率密度函数(joint probability density function)为 $p (x,y)$

$X$ 的边缘概率密度函数(marginal probability density function)为

pX(x)=p(x,y)dyp_{X}(x)=\int_{-\infty}^{\infty}p(x,y)dy

$X$ 的期望(expectation)为

E(X)xxpX(x)dxE(X)\equiv \int_{x}x\cdot p_X(x)dx

$Y$ 关于 $X$ 的条件概率密度函数(conditional probability density function)为

pYX(x,y)=p(x,y)pX(x,y)p_{Y\mid X}(x,y)=\frac{p(x,y)}{p_{X}(x,y)}

贝叶斯定理(Bayes' theorem)

p(x,y)=pYX(x,y)pX(x)=pXY(x,y)pY(y)p(x,y)=p_{{Y\mid X}}(x,y)\cdot p_{X}(x)=p_{X\mid Y}(x,y)\cdot p_{Y}(y)

$Y$ 关于 $X$ 的条件期望(conditional expectation)为

E[YX=x]=yypYX(x,y)dyE[Y\mid X=x]=\int_{y}y\cdot p_{Y\mid X}(x,y)dy

对于任意一个实数 $x$ 都仅存在一个实数 $E [Y\mid X=x]$ 与之对应,因此也可以称之为条件期望函数(conditional expectation function);若写为 $E [Y\mid X]$ 则表示随机变量到随机变量的映射。

Law of Iterated Expectations#

Theorem

E[E(YX)]=E[Y]E[E(Y\mid X)]=E[Y]

Proof

E[E(YX)]=xE(YX)pX(x) dx=xyypYX(x,y)dy pX(x) dx=xyypXY(x,y)pY(y) dy dx=xpXY(x,y) dxyypY(y)dy=yypY(y)dy=E[Y]\begin{align*} E[E(Y\mid X)]&=\int_{x}E(Y\mid X)p_{X}(x)\ dx\\ &=\int_{x}\int_{y}y\cdot p_{Y\mid X}(x,y)dy\ p_{X}(x)\ dx\\ &=\int_{x}\int_{y}y\cdot p_{X\mid Y}(x,y)p_{Y}(y)\ dy\ dx\\ &=\int_{x}p_{X\mid Y}(x,y)\ dx\int_{y}y\cdot p_{Y}(y)dy\\ &=\int_{y}y\cdot p_{Y}(y)dy\\ &=E[Y] \end{align*}

Best Predictor#

统计学的一个基本问题是如何找到一个关于 $X$ 的函数来预测 $Y$ ,下面证明条件期望函数能够使得预测误差平方的期望最小。
Theorem
令 $g (X)$ 为关于 $X$ 的任意函数,则

E[YX]=argmingE[(Yg(X))2]E[Y|X]=\mathop{\arg\min}\limits_g E[(Y-g(X))^2]

Proof

E[(Yg(X))2]=E[(YE[YX]+E[YX]g(X))2]=E[(YE[YX])2]+E[(E[YX]g(X))2]++2E[(YE[YX])(E[YX]g(X))]\begin{align*} E[(Y-g(X))^2] &=E[(Y-E[Y\mid X]+E[Y\mid X]-g(X))^2] \\ &=E[(Y-E[Y\mid X])^2]+E[(E[Y\mid X]-g(X))^2]+ \\ &+2E[(Y-E[Y\mid X])(E[Y\mid X]-g(X))] \end{align*}

第一项为

E[(YE[YX])2]=E{(YE[YX])2X}=E{Var[YX]}0E[(Y-E[Y\mid X])^2]=E\{(Y-E[Y\mid X])^2|X\}=E\{Var[Y\mid X]\}\ge0

最后一项为

2E[(YE[YX])(E[YX]g(X))]=2E[E{(YE[YX])(E[YX]g(X))X}]=2E[(E[YX]g(X))E{YE[YX]X}]=2E[(E[YX]g(X)){E[YX]E[YX]}]=0\begin{align*} &2E[(Y-E[Y\mid X])(E[Y\mid X]-g(X))] \\ =&2E[E\{(Y-E[Y\mid X])(E[Y\mid X]-g(X))|X\}] \\ =&2E[(E[Y\mid X]-g(X))E\{Y-E[Y\mid X]|X\}] \\ =&2E[(E[Y\mid X]-g(X))\{E[Y\mid X]-E[Y\mid X]\}] \\ =&0 \end{align*}

因此,取 $g (X)=E [Y\mid X]$ 使得原式取得最小值。

虽然理论上 $E [Y\mid X]$ 就能给出对 $Y$ 的最优预测,但 $E [Y\mid X]$ 的具体函数形式实际上是未知的,因此在实践中有时需要对条件期望函数的形式作出武断的假设。

Loading...
Ownership of this post data is guaranteed by blockchain and smart contracts to the creator alone.