Takuya Kawanishi

2. 確率空間と分布・期待値

2.1 標本空間(sample space)

標本空間についての基本

  • 標本空間(sample space)は集合である.

    • 例えば, サイコロを 1 回振る場合, 標本空間は \(\mathrm{\{I, \, II, \, III, \, IV, \, V, \, VI \}}\).

    • \(\mathrm I\) は 1 の目がでることを示す.

  • 標本空間の要素を結果(outcome)という.

  • 標本空間の部分集合を事象(event)という.

  • 試行(trial): 例えばサイコロを 1 回振ること.

  • 試行において, ある事象が起こる, とは, 試行の結果がある事象に含まれることである.

    • サイコロで偶数の目が出る, という事象は 集合 \(\mathrm{\{II, IV, VI\}}\) である.

  • 確率は, 事象に \(0 \le \mathbb P \le 1\) の値を対応させる集合関数(set function)である.

    • 集合関数: 集合に対してある値を対応させる写像.

確率空間

  • 確率は集合関数であるため, その領域 (domain, 定義域) は標本空間 \(\Omega\)部分集合の集合 (部分集合族) である.

  • 確率をきっちり定義するためには, この領域が「補集合および可算和\({}^{1)}\)について閉じている」ことが必要である.

  • このような性質を満たす部分集合族を \(\sigma\)-集合体\(^{2)}\)\(\sigma\)-algebra, \(\sigma\)-field)という.

  • 標本空間 \(\Omega\), 確率の領域である \(\sigma\)-集合体 \(\mathcal F\), 確率 \(\mathbb P\) の 3 つを組にした

    \[(\Omega, \mathcal F, \mathbb P)\]

       を確率空間 という.

  • 確率は, 事象族 \(\mathcal F\) を領域 (domain) として, \([0, 1]\) に値をもつ集合関数である.

    \[\boxed{ \mathbb P: \mathcal F \to [0, 1]} \tag{2.1}\label{eq: \mathbb P: U to unit interval}\]
  • 確率はつぎの性質を必ずもつ.

\[\mathbb P(\emptyset) = 0, \quad \mathbb P (\Omega) = 1\]

  1. 可算個(countable)とは, 有限個および自然数と一対一に対応する個数. 可算和は可算個の (集合の) 和.

  2. \(\sigma\)-集合体はこの講義レベルでは普通扱わない高度な内容である. これを今理解する必要はないが, 確率 \(\mathbb P\) が集合関数であり, その定義域(domain)が, 標本空間 \(\Omega\) ではなく, \(\Omega\) の部分集合族 \(\mathcal F\) であり, 確率がちゃんと定義されるためには, この部分集合族 \(\mathcal F\)\(\sigma\)-集合体でなければならない, ことは覚えておいて欲しい.

例 (ルーレット)

  • 1, 2, 3 の 3 つの数字が出るルーレットがある.

  • 1 の数字が出る結果を I, 2 の数字が出る結果を II, 3 の数字が出る結果を III とする.

    • ローマ数字を使っている理由は後述 .

  • すなわち, 結果を列挙すると I, II, III である.

  • このルーレットを 1 回す試行を考えると, その標本空間は,

\[\Omega = \mathrm{ \{ I, \, II, \, III \} }\]
  • ここで, 結果 (outcomes) は, I, II, III である. {I}, {II} {III} ではない.

  • {I}, {II} {III} 等は集合であり, 根元事象(elementary event)という.


例題 2.1

  • 上記のルーレットの例で, 全ての事象からなる事象族 \(\mathcal F\) を, (要素を列挙することで) 示せ.


解答 2.1

\begin{align*} \mathcal F = \{&\phi, %\\ & \mathrm{ \{I\}, \{II\}, \{III\}, \ } \\ & \mathrm{ \{I, II\}, \{II, III\}, \{III, I\}, \ } %\\ & \Omega\} \end{align*}

事象についての用語

  • 事象 \(A\)余事象 \(\Omega \setminus A\) (確率を考える時, 常に \(\Omega\) は明確である.)

  • 事象 \(A\) と事象 \(B\)和事象: \(A \cup B\)

  • 事象 \(A\) と事象 \(B\)積事象: \(A \cap B\)

  • 事象 \(A\) と事象 \(B\)排反事象: \(A \cap B = \emptyset\)

確率の加法定理

  • 一般の場合

\[\mathbb P(A \cup B) = \mathbb P(A) + \mathbb P(B) - \mathbb P(A \cap B)\]
  • \(A\)\(B\) が排反事象 (\(A \cap B = \emptyset\)) の場合

\[\mathbb P(A \cup B) = \mathbb P(A) + \mathbb P(B)\]

定義 2.2(独立な事象)

  • 事象 \(E\) と 事象 \(F\) とが独立であるとは, 次式が成り立つことである.

\[\mathbb P(E \cap F) = \mathbb P(E) \mathbb P(F) \tag{2.2}\]

コメント

  • 独立な事象についての説明はいろいろあるが, 数学的には上記のように定義する.

  • 直感的には, 条件つき確率を使った説明のほうがわかりやすいが, 将来, より高度な統計学を学ぶときに, 独立性を考える上でいちいち条件付き確率を考えるとややこしくなる.

  • このため, 読者は, Web などで独立な事象についてある程度イメージを得たら, その後は常にこの定義 2.2 にもとづいて考えることに慣れて欲しい.

2.2 確率変数(random variables)

確率論における確率変数の定義

  • 確率変数(random variable)は(変数という名前にかかわらず), (標本空間 \(\Omega\) の要素である)結果 \(\omega\) に, ある実数を対応させる関数である.

  • この関数は決定論的である. つまり, ランダムなのは結果 \(\omega\) であって, この関数ではない.

  • 確率変数をを表すには, 慣習的に \(X\) など大文字を使う.

  • 結果 \(\omega\) の関数であることを明示したいときは \(X(\omega)\) などと表す.

    \[X: \Omega \to \mathbb R \tag{2.3} \label{eq: omega to R}\]
  • 式 (2.1) と比較せよ. 確率の定義域は \(\mathcal F\)

  • 通常, \(X\) から \(\omega\) にさかのぼって考える場面はほとんどなく, \(X\) をランダムな変数として扱えば十分である.

  • ただし, 複数の確率変数を扱うときなど, 確率変数 \(X\)\(\mathbb P\) との関係が不明瞭になることがあり, そのような場合は結果(outcome)\(\omega\) に戻って考えたほうがよい. いつでも \(\omega\) に戻って考えることができるように, 確率変数が出てきたら必ず \eqref{eq: omega to R} の関係を考える習慣をつけるのがよい.

コメント

  • モンティー・ホール問題を検索して, どのようなものかざっと知っておいてください.

  • 我々は, このモンティー・ホール問題のような一見単純なセッティングでも, 間違いやすい.

  • ややこしいときには, 確率変数だけではなく, 確率空間がどうなっているのかを考えるとよい.

確率変数と観測値

  • 試行によって, 確率変数 \(X\) のある具体的な値 \(x\) が得られたとする.

  • \(x\)観測値(observation, observed value)という. 実現値(realization)ともいう.

  • 慣習により, 確率変数は大文字, 観測値は小文字で表される.

  • 確率変数 \(X\): 試行が実際に行われるまで値がわからないという意味でランダムな値.

  • 観測値 \(x\): 試行が行われたあと実際に得られた値. ランダムではない定数や変数.

離散確率変数と連続確率変数

  • サイコロの目のように, 確率変数が離散的な(discrete)値をとる場合, この確率変数を離散確率変数(discrete random variable) という.

  • 温度などのように連続した値をとる確率変数を連続確率変数(continuous random variable)という.

2.3 確率分布関数(probability distribution)

用語

  • 確率分布(probability distribution, distribution): 確率変数によって誘導される確率測度(JIS: Z8101-1:2015 (ISO 3534-1:2006))

  • 「誘導される」, 「測度」は数学用語である. 現時点でこの言葉を理解する必要はない.

  • 確率 \(\mathbb P\) は, 事象(標本空間の部分集合)に \(0\) 以上 \(1\) 以下の実数を対応させる写像だった.

  • 確率分布は, これを, 確率変数の関数として解釈するものと言える.

コメント

  • 確率はあくまで事象族上の関数である.

  • 確率分布はそのことを見えなくしてしまいがち.

  • この講義より上のレベルの統計学を学ぶためには, このあたりをきっちりと理解することが重要.

確率質量関数

定義 2.3(確率質量関数)

  • \(X\)離散確率変数とする. このとき, 確率質量関数(probability mass function, pmf), あるいは確率関数(probability function) \(f_X\) は次で 定義される.

    \[f_X(x) = \mathbb P \left( \{X=x\}\right) = \mathbb P (X = x) \tag{2.4}\]

Remark

  • 確率は集合関数である. ここで, 確率質量関数 \(f_X\) は, 集合 \(\{X = x \}\)\([0, 1]\) のある値を対応させる写像である.

  • これを省略して \(\mathbb P(X=x)\) といった表記をする.


例題 2.2

  • 狂いのない理想的な 1 つのサイコロを振る試行を考える.

  • 確率変数 \(X\) をサイコロの目の数とするとき, 確率質量関数を示せ. 標本空間を \(\Omega\) とする.

    \[\Omega = \mathrm{ \{ I, \, II, \, III, \, IV, \, V, \, VI \} }\]

解答 2.2

  • 確率質量関数(pmf) は

\begin{align*} f_X(X=1) & = f_X(X=2) = f_X(X=3) = f_X(X=4) \\ & = f_X(X=5) = f_X(X=6) = \frac{1}{6} \end{align*}

なぜサイコロやルーレットの結果をローマ数字で表したか

  • 結果と確率変数を区別したかったからである.

  • 例題 2.1 で各ローマ数字は各結果を表す.

  • 例えば, サイコロで偶数の目が出る事象を \(\{2, 4, 6\}\) と書いた場合, 暗黙にサイコロの目と確率変数を同一視している(そうでない場合の例を次のスライドで示す) .

\begin{align*} &X(\mathrm I) = 1, \, X(\mathrm{II}) = 2, \, X(\mathrm{III})=3, \, \\& X(\mathrm{IV}) = 4, \, X(\mathrm{V}) = 5, X(\mathrm{VI})= 6 \end{align*}

  • 確率変数 \(X\) は結果 I から実数 1 に, 結果 II から実数 2 を対応させる関数である.

サイコロの目と確率変数の値が一致しない場合

  • 例えば, すごろくで, 奇数の目が出たら 3 コマ進み, 偶数の目が出れば 1 コマ戻る, というルールがあったとしよう.

  • この場合, 確率変数は

\begin{align*} X(\omega) = \begin{cases} 3 & \omega = \mathrm{I, III, V} \\ -1 & \omega = \mathrm{II, IV, VI} \end{cases} \end{align*}

  • 確率質量関数は

\[\begin{split}f_X(x) = \begin{cases} \frac{1}{2} & x = 3 \\ \frac{1}{2} & x = -1 \end{cases}\end{split}\]
  • 同じサイコロを振る, という試行でも, 無数の確率変数を定義できることが分かる.

  • サイコロの「1 の目が出るという結果(\(\omega = \mathrm{I}\))と目の数 1 を同一視する場合, \(X(\mathrm{I}) = 1\) という関係を暗黙のうちに仮定している.

  • この関係はあまりにも自然なため, 確率変数 \(X\) と結果 \(\omega\) との関係が見えなくなってしまうのが問題である.

累積分布関数と確率密度関数

定義 2.4 (累積分布関数)

  • \(X\)連続確率変数とする. このとき, 累積分布関数(cumulative distribution function, cdf)\(F_X\) は次で定義される.

    \[F_X(x) = \mathbb P( \{ X \le x \} ) = \mathbb P(X \le x) \tag{2.5}\]
  • ここで, 確率 \(\mathbb P\) は, 集合 \(\{X \le x \}\) から \([0, 1]\) への写像である.

定義 2.5 (確率密度関数)

  • \(X\) を, 累積分布関数 \(F_X\) をもつ連続確率変数とする. このとき, 確率密度関数(probability density function, pdf)\(f_X\) は以下で定義される.

    \[f_X(x) = \frac{d F_X(x)}{dx} \tag{2.6}\]

2.4 期待値と分散

注意

  • この章における期待値と分散は, 母集団の期待値と分散である (母平均, 母分散とも呼ぶ).

  • 次章では, 標本 (サンプル) に関する, 標本平均と標本分散を学ぶ.

  • 統計学を学ぶときは, 「何の」平均か, 「何の」分散か, を常に意識すること.

離散確率変数の期待値

定義 2.6(期待値)

  • \(X\) を離散確率変数, \(\mathcal X\)\(X\) が取りうる値の集合\(^*\)\(\mathcal X = \{x_1, x_2, \dotsc, \}\)), \(f_X\)\(X\) の確率質量関数とする. このとき, \(X\) の期待値 \(\mu\) は以下で定義される.

\[\mu = \mathbb E (X) = \mathbb E X = \sum_{x_i \in \mathcal X} x_i f_X(x_i) \tag{2.7}\]

Remark

  • \({}^*\) \(\mathcal X\) と見慣れない記号を使ったが, 難しく考える必要はない. 例えば例題 2.2 では \(\{1, 2, 3, 4, 5, 6\}\) である.

  • \(\sum_{x_i \in \mathcal X}\) は, \(\mathcal X\) に含まれるすべての \(x_i\) について和をとることを表している.

  • \(\mu = \sum_{x_i \in \mathcal X} x_i \mathbb P(X = x_i)\)

  • \(p_i := f_X(x_i) = \mathbb P(X = x_i)\) とおくと \(\mu = \sum x_i p_i\) となる.


例題 2.3

  • 例題 2.2 で, サイコロの目を確率変数とする場合, その期待値を求めよ.


解答 2.3

\[f_X(x) = \frac{1}{6} \quad (x \in \mathcal X = \{1, 2, 3, 4, 5, 6\})\]
  • 式 (2.7) より

\begin{align*} \mu & = \mathbb E (X) = \mathbb E X = \sum_{x_i \in \mathcal X} x_i f_X(x_i) \\ & = \sum_{i=1}^6 \frac{i}{6} = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = 3.5 \end{align*}


例題 2.4

  • すごろくで, 奇数の目が出たら 3 コマ進み, 偶数の目が出れば 1 コマ戻るという場合, 進むコマ数の期待値はいくらか.


解答 2.4

確率変数の取りうる値の集合 \(\mathcal X\)

\[\mathcal X = \{ 3, -1\}\]

このとき確率質量関数は

\[f_X(3) = \frac{1}{2}, \quad f_X(-1) = \frac{1}{2}\]

したがって,

\[\mu = \mathbb E X = \sum_{x_i \in \mathcal X} x_i f_X(x_i) = (3)\frac{1}{2} + (-1)\frac{1}{2} = 1\]

連続確率関数の期待値

定義 2.7 (連続確率変数の期待値)

  • \(X\) を連続確率変数, \(f_X\)\(X\) の確率密度関数とする. このとき, \(X\) の期待値 \(\mu\) は以下で定義される.

    \[\mu = \mathbb E (X) = \mathbb E X = \int_{-\infty}^\infty x f_X(x) \, dx \tag{2.8}\]

例題 2.5

  • \([0, 1]\) 上の一様連続分布の期待値を求めよ. ただし, この分布の確率密度関数は次のとおりである.

\[\begin{split}f_X(x) = \begin{cases} 0 & x < 0 \\ 1 & 0 \le x \le 1 \\ 0 & x > 1 \end{cases}\end{split}\]

解答 2.5

\begin{align*} \mu & = \int_{-\infty}^{\infty} x f_X(x) \, dx %\\ & = \int_{0}^1 (x) \, \underbrace{(1)}_{f_X(x)} \, dx \\ & = \left[ \frac{x^2}{2} \right]_{0}^{1} = \left\{ \frac{1}{2} - 0 \right\} = \frac{1}{2} \end{align*}

離散と連続を合わせた表現

\begin{equation} \mu = \mathbb E (X) = \boxed{\int x \, dF_X(x)} = \begin{cases} \displaystyle{\sum_{x \in \mathcal X} x f_X(x)} & X \textsf{ が離散の場合} \\ \\ \displaystyle{\int_{-\infty}^\infty x f_X(x) dx} & X \textsf{ が連続の場合} \end{cases} \tag{2.9} \end{equation}

  • 統計学ではこの式のように \(dF_X(x)\) のような表現がよく出てくる.

  • 応用の観点からは, これは, 離散の場合と連続の場合のどちらでも表すことのできる便利な表記, と考えおいてよい.

  • 数学としては, これは ルベーグ-スティルチェス積分を表している. この枠組みでは, 離散も連続も同じように扱うことがきる.

分散

定義 2.8 (分散)

  • \(X\) を確立変数とし, その期待値を \(\mu\) とする. このとき, \(X\)分散(variance) \(\sigma^2\) は, 次のように定義される.

\[\sigma^2 : = \mathbb E(X - \mu)^2 \tag{2.10}\]

Remark

  • 分散は, \(\sigma^2_X\), \(\operatorname{Var} X\), \(\operatorname {var} X\), \(\mathbb V(X)\), \(\mathbb V X\) と表されることもある.

離散分布と連続分布の分散

  • 離散分布

\[\sigma^2 = \operatorname{Var} (X) = \sum_{x_i \in \mathcal X} (x_i - \mu)^2 f_X(x_i) \tag{2.11}\]
  • 連続分布

\[\sigma^2 = \operatorname{Var} (X) = \int (x_i - \mu)^2 \, f_X(x) \, dx \tag{2.12}\]
  • あわせて

\[\sigma^2 = \operatorname{Var} (X) = \int (x_i - \mu)^2 \, d F_X(x) \tag{2.13}\]

標準偏差

定義 2.9 (標準偏差)

\[\operatorname{sd} (X) := \sqrt{\operatorname{Var}(X)} = \sqrt{\sigma^2} \tag{2.14}\]

Remark

  • 標準偏差は \(\sigma\), \(\sigma_X\) と表されることもある.


例題 2.6

  • \([0, 1]\) 上の一様連続分布の分散を求めよ.

  • この分布の確率密度関数は例題 2.5 を参照のこと.


解答 2.6

\begin{align*} \sigma^2 & = \int_{0}^{1} \left(x - \frac{1}{2}\right)^2 \, (1) \, dx \\ & = \int_{0}^{1} \left(x^2 - x + \frac{1}{4}\right) \, (1) \, dx \\ & = \left[ \frac{1}{3} x^3 - \frac{1}{2} x^2 + \frac{1}{4} x \right]_{0}^{1} = \frac{1}{12} \end{align*}

2.5 連続分布と確率

連続分布では単集合 (singleton) の事象が起こる確率は 0

  • 一様分布 (例題 2.5) に従う確率変数を考える. この確率変数は, \([0, 1]\) の間の値を全く同じ確率でとる.

  • では, この確率変数が \(X=1/2\) となる確率はどれくらいだろうか.

  • 実は, この確率は 0 になる.

\[\mathbb P \{X = 1/2\} = 0\]
  • これは, 数学と日常用語との違いのひとつ, というべきものである. 数学的に確率が 0 ということは全く起こらない, ということを意味するのではない.

  • では, 確率変数 \(X\)\(1/4\) 以上 \(1/2\) 以下の値をとる確率はどうだろうか. この場合, 事象 (\(A\) とおくことにする) は

\[A = \{x: \ x \in [{1}/{4}, \ {1}/{2}] \}\]

       で, この事象 \(A\) が起こる確率は

\[\mathbb P (A) = \int_{x \in A} f_X \, dx = \int_{1/4}^{1/2} (1) \,dx = \frac{1}{4}\]

       となる. ちなみに, \(1/4\) より大きく, \(1/2\) より小さい値をとるという事象

\[B = \{x: \ x \in (1/4, \ 1/2) \}\]

       の起こる確率も \(\mathbb P (B) = 1/4\) である. \(\mathbb P(A)\)\(\mathbb P(B)\) が等しくなるのは, 単集合の確率が 0 だからである.

  • 単集合の確率が 0 となるのは, 1 次元空間 (直線, 線分) において点が長さを持たないことによる.

演習問題

問題 2.1

  • コインを投げるときの結果は, 表 (head) が出る H, 裏 (tail) が出る T の 2 つである.

    1. 2 枚のコイン A, B が区別できるとする. この 2 枚のコインを投げるときの標本空間を求めよ.

    1. 偏りのないコインについて, (1) の各根元事象の起こる確率を求めよ. (標本空間が有限なので, 各結果が起こる確率, といっても間違いではない.)

問題 2.2

  • 上記 2.1 で, 2 枚のコインが区別できないときの (1) 標本空間, (2) 各根元事象の起こる確率

問題 2.3

  • 上記 2.2 で, (1) 事象族 \(\mathcal F\) を求めよ, (2) \(\mathcal F\) の各元 (すなわち事象) の起こる確率を求めよ.

問題 2.4

  • 正規分布の確率密度関数は次のとおりである. 正規分布の期待値と分散を求めよ.

\[f_X(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2} }\]

hints

  • 次の結果を使え.

\begin{align*} \int_{-\infty}^{\infty} e^{-t^2} \, dt &= \sqrt\pi \\ \int_{-\infty}^{\infty} t e^{-t^2} \, dt & = 0 \\ \int_{-\infty}^{\infty} t^2 e^{-t^2} \, dt & = \frac{\sqrt{\pi}}{2} \end{align*}

解答 2.1

    1. 結果は, (Aの結果, Bの結果) の順序対となる. これより標本空間は

\[\Omega = \left\{\mathrm{(H, H), (H, T), (T, H), (T, T)} \right\}\]
    1. 根元事象の起こる確率は

\[\mathbb P(\{\mathrm{(H, H)}\}) = \mathbb P(\{\mathrm{(H, T)}\}) = \mathbb P(\{\mathrm{(T, H)}\}) = \mathbb P(\{\mathrm{(T, T)}\}) = \frac{1}{4}\]

解答 2.2

    1. コインが区別できないため, 結果は順序を考えない対となる. 標本空間は,

\[\Omega = \left\{ \mathrm{ \{H, H\}, \{T, T\}, \{T, H\}} \right\}\]
    1. 根元事象の起こる確率は

\[\mathbb P(\mathrm{\{H, H\}}) = \mathbb P(\mathrm{\{T, T\} }) = \frac{1}{4}, \quad \mathbb P(\{\mathrm{T, H}\}) = \frac{1}{2}\]

解答 2.3

\begin{align*} & \{ \ \mathrm{ \{\{H, H\}\}, \ \ \{\{T, T\}\}, \ \ \{\{H, T\}\} }, \\ & \ \ \ \mathrm{ \{ \{H, H\}, \{T, T\} \}, \ \ \{ \{H, H\}, \{H, T\} \}, \ \ \{ \{T, T\}, \{H, T\} \} }, \\ & \ \ \ \mathrm{ \{ \{H, H\}, \{T, T\}, \{H, T\} \}} \ \} \end{align*}

    1. \(\mathrm{ \{\{H, H\}\}, \ \ \{\{T, T\}\}, \ \ \{\{H, T\}\} }\) については前問のとおり.

      そのほかについては,

\begin{align*} &\mathbb P \mathrm{ \{ \{H, H\}, \{T, T\} \} } = \frac{1}{4} + \frac{1}{4} = \frac{1}{2}, \\ & \mathbb P \mathrm{ \{ \{H, H\}, \{H, T\} \} } = \mathbb P \mathrm{ \{ \{T, T\}, \{H, T\} \} } =\frac{1}{4} + \frac{1}{2} = \frac{3}{4} \\ & \mathbb P \mathrm{ \{ \{H, H\}, \{T, T\}, \{H, T\} \} } (= \mathbb P(\Omega)) = 1 \end{align*}