無粋な日々に

頭の中のメモ。分からないことを整理する

統計学習メモ:期待値

データ分析の勉強をしていると期待値や分散の計算は非常によく使う。ほとんどこればっかりやっている感じ。 なので期待値や分散の性質は、一度納得したら覚えておくとスムーズ。 本記事では期待値の定義や性質をまとめます。分散、共分散のまとめはこちらから

統計学習メモ:分散、共分散 - 無粋な日々に

※本記事の定義や式の展開はソラで書いています。違和感や間違いがありましたら教えてもらえると嬉しいです。

期待値の定義

連続型確率変数Xに関するf(X) の期待値は


E_{X}[f(X)] = \int_{\mathbb{R}} f(x) p(x) d x

E_{X}[\cdot] はXに関して期待値をとる操作とする。

この期待値の定義や次の期待値の性質は分布を仮定せず、どんな分布でも使うことができる。 また具体的な期待値を計算する際は、確率密度関数(PDF)や確率質量関数(PMF)を設定して使うことになる。たとえば正規分布だと  p(x) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left(-\frac{(x - \mu)^{2}}{2\sigma^{2}}\right)

よく使う期待値の性質

1. 定数の期待値

定数の期待値は定数になる(aは定数)


E_{X}[a] = a

2. 線形性

期待値は線形性をもつ


E_{XY}[af(X) + bg(Y)] = aE_{X}[f(X)] + bE_{Y}[g(Y)]

​上の式は、X, Yが互いに独立でなくても成立する

3. 依存しない変数まわりの期待値

 f(X)は変数 Yに依存しないので、 Yに関する操作は考えず、 Xに関する期待値のみ考えれば良い


E_{XY}[f(X)] = E_{X}[f(X)]

証明

1. 定数の期待値

定数は  f(x) = a のケースで、 f(X) が確率変数 Xに関係なく一定の値を取る場合に相当する


\begin{align}

E_{X} [ a ] &=\int a p(x) d x \\
&=a \int p(x) d x=a

\end{align}

2. 線形性

複数の確率変数X, Y の場合、期待値は同時確率 p(x, y) の計算となるため注意が必要だが、周辺化されるため結果は単純になる


\begin{align}

E_{XY}[af(X)+bg(Y)] &=\iint \{ af(x)+bg(y) \} p(x, y) d x d y \\
&=\iint af(x) p(x, y) d x d y+\iint bg(y) p(x, y) d x d y \\
&=a\int f(x)[\int p(x, y) d y] d x+b\int g(y)[\int p(x, y) d x] d y \\
&=a\int f(x) p(x) d x+b\int g(y) p(y) d y \\
&= aE_{X}[f(X)] + bE_{Y}[g(Y)]

\end{align}

2行目から3行目の変形は周辺化  p(x)= \int p(x, y)dy を用いた。  X が離散型確率変数の場合、期待値は総和  \sum{f(X)p(X)} で定義されるが、この場合も次の期待値の性質は同様に成り立つ

3. 依存しない変数まわりの期待値

 Yは周辺化により積分消去されるので関係なくなる


\begin{align}

E_{XY}[f(X)] &=\iint f(x) p(x, y) d x d y \\
&=\int f(x)[\int p(x, y) d y] d x\\
&=\int f(x) p(x) d x\\
&= E_{X}[f(X)]

\end{align}

2行目から3行目の変形が周辺化  p(x)= \int p(x, y)dy を用いている

期待値の線形性から和の期待値は期待値の和となるが、これはよく使う


E_{XY}[X + Y] = E_{X}[X] + E_{Y}[Y]

例えば、正規分布に従う2つの変数XY があり、平均がそれぞれ \mu_{X}, \mu_{Y}正規分布に従うとする


\begin{array}{l}
X \sim \mathcal{N}\left(\mu_{X}, \sigma_{X}^{2}\right) \\
Y \sim \mathcal{N}\left(\mu_{X}, \sigma_{Y}^{2}\right) \\
\end{array}

XYの 和の確率変数X + Y の平均は  \mu_{X}+\mu_{Y} となる


{E[X+Y]=E[X]+E[Y]=\mu_{X}+\mu_{Y}}

誤差解析とか時系列、カルマンフィルタとかは比較的こういう考え方がよく出てくる印象


私は日頃よく以下が分からなくなることが多いです。

  • 何周りの期待値を取っているのか
  • 変数同士の独立を仮定しているのか

その整理のため書きました。日々精進