Takuya Kawanishi

4. 実験データの解析

4.1 繰り返し測定

場面設定

  • 実験を行い, ある量を測定する。

  • 実験を 3 回行い, この量に関する 3 つの値を得る.

  • その平均値と, データの信頼区間を求める。

真の値とばらつきによるモデル.

  • 測定値 \(X\) は, 真の値 \(a\) と, 正規分布に従うランダムなばらつき \(Y_\varepsilon\) の和であると考える.

\begin{equation} X = a + Y_\varepsilon \tag{4.1} \label{eq: X = a + Y} \end{equation}

\begin{equation} Y_\varepsilon \sim \mathcal N(0, \sigma_\varepsilon^2) \tag{4.2} \label{eq: error obeys normal} \end{equation}

  • 記号 \(\sim\) は, 左辺のランダムな量(確率変数)が右辺の分布に従うことを示す.

  • \(\mathcal N(\mu, \sigma^2)\) は, 平均 \(\mu\), 分散 \(\sigma^2\) の正規分布を表す.

  • 母集団は, 平均 \(a\), 分散 \(\sigma_\varepsilon^2\) の正規分布と考える.

\begin{equation}X \sim \mathcal N(a, \sigma_\varepsilon^2) \tag{4.3}\end{equation}

  • これは, 別の書き方をすれば, 次のようになる.

\begin{equation} \frac{X - a}{\sigma_\varepsilon} \sim \mathcal N (0, 1) \tag{4.4} \label{eq: X obeys nd} \end{equation}

  • \(\mathcal N(0, 1)\)標準正規分布という.

コメント

  • ある「真の値」を測定し, 誤差を評価する, というよりも, 「平均 \(a\), 分散 \(\sigma_\varepsilon^2\)の正規分布」に従う母集団から, 大きさ \(n\) の標本(例えば 3 回の繰り返し測定なら, \(n=3\))をとる, と考えるほうが, 統計解析の意味を理解しやすい.

  • 3 つの測定値は, この母集団からの大きさ \(3\)(サイズ 3, size 3)の標本(sample)であると考える. 標本の大きさ(標本サイズ, サンプルサイズ, size)と標本数(number of samples)を混同しないように. 前者はひとつの標本に含まれる数値あるいはベクトルの数である. 後者はそのような標本がいくつあるかを示す.

  • ここでは, 誤差が正規分布に従うと仮定しているが, この仮定が成り立たない場合にはこの章の方法は使えない. 今日, 様々な手法があり, 状況に応じて適切な方法を選択することが重要である. それができるためには, ある程度の統計学のリテラシーが必要である.

データ解析上の課題

  • 得られた標本から母集団の平均 \(a\)(真の値)を求めること.

  • 標準偏差 \(\sigma_\varepsilon\) を推定すること.

  • 信頼区間を推定すること.

Remark

  • 統計学の慣例として, 確率変数を大文字, それ以外を小文字で示す.

  • 例えば, 具体的な観測値(observation, 実現値, realization)は定数とみなせるので小文字で表す (\(x_1, x_2, \dotsc\) など) .

  • \(\bar X\), \(S^2\) は標本から計算される量であるが, 具体的な標本データをとる前は, これら自体が確率変数と考えられるので, 大文字であらわす.

  • これはおおよそのルールであり, 必ずしも常に当てはまるわけではない.

4.2 測定データの標本平均, 標本分散(標準偏差)


例題 4.1

  • 反応槽より, 100 μLのサンプルを 3 つとり, 成分 A の濃度を測定したところ, 次の値を得た. (単位は, μg/L)

\[10.1, 10.2, 9.3\]
    1. 標本平均と, 標本分散(不偏分散), 標準偏差(不偏分散基準)を求めよ.

    1. 結果をレポートするときに, 例えばどのように表現するか.


解答例 4.1

  • 標本平均 \(\bar x\), 標本分散(不偏分散), \(s^2\), 標準偏差 \(s\) は, それぞれ

\[\bar x = \frac{10.1 + 10.2 + 10.3}{3} = 9.867\]
\[s^2 = \frac{(10. 1 - 9.87)^2 + (10.2 - 9.87)^2 + (9.3 - 9.87)^2}{3-1} = 0.2433\]
\[s = \sqrt{s^2} = 0.4929\]
  • 例えば, 平均値(標準偏差)という形で表す.

  • GUM に従うと, 標準偏差はの有効桁数は最大で 2 (次の計算に使うなど特別な場合に 3 であり, 平均はそれに位を揃えるので, 例えば

    • 平均値(標準偏差)は, $9.87(0.49) $ μg/L

  • JIS Z9041 に従うと, 標本の大きさ \(n=3\) の場合は, 平均値は測定値よりひと桁下の位までとり, 標準偏差は最大 3 桁なので, GUM と同じか, あるいは標準偏差を有効桁数 3 にとって, 例えば,

    • 平均値(標準偏差)は, $9.87(0.493) $ μg/L

平均値をどこまで報告するか

  • 平均値の有効数字(というか報告する桁数)は, 元の値より多い.

  • 標準偏差有効桁数最大 3 桁(JIS Z9041), 2 桁(GUM, ただし特別な場合に 3).

  • 平均値にの有効桁数ついては, 標本の大きさによって変わる(JIS Z9041).

レポートでの書き方(分野の慣例)

  • データの不確かさの表し方はいくつもある. ふつう, 標準偏差, 標準誤差(後述), 信頼区間, のいずれかをレポートする.

  • 基本的には, それぞれの分野の慣習に従う.

  • しかし, 学問分野も, 分野内の考えかたも常に変化しているので, 注意が必要である.

  • 分野によっては, 統計学的に問題のある手法がまかり通っていたこともある. これは当然是正されるべきだろうし, 現在はかなり改善されているようにみえる.

  • 標本の大きさ(\(n=3\)), 不偏分散(式 (3.5))をもとにした標準偏差を使っていることを, 実験方法のところ等に記しておくべきである.

  • 標準偏差, 標準誤差については, \(9.87\pm 0.49\) のような表記は信頼区間と紛らわしいから避けるように, との意見がある.

統計・データ解析ツールを使った計算

  • このような計算を電卓で行う場面は減っている.

  • Excel などの統計計算機能を使って計算することが普通である.

  • 下に, Python 上の Pandas を使った計算例を示す.

  • 途中の計算の丸めの誤差などを考えずにすむので, 楽だし, 電卓の場合のような計算違いは起こりにくい.

  • ただし, 有効桁数については情報を何も与えてくれないので, そこは人間が判断するしかない.

何の平均?, 何の分散?

  • 統計解析では, 「平均」, 「分散」, 「標準偏差」などの量が, 何の平均なのか, 何の分散なのか, を明確にすることが極めて重要である.

  • 母集団の量と標本の量との区別は基本中の基本である.

  • それ以外にも, 「〇〇の平均の平均」, 「〇〇の平均の分散」, といった値を扱うこともある.

  • 統計学では, データから計算できる量は全て統計量として扱うことができる. これら統計量に対して, 平均, 分散, そして, さらに別の統計量が定義できる.

  • また, 統計学では, 多くの量を扱うため, 工学に比べて, 同じ記号を使い回す傾向がある.

4.3 信頼区間

 繰り返し 3 回 測定による推定量はどの程度正しいのか

  • 例題 1 では, 大きさ 3 の標本(3 回の測定)から, 真の値(母集団の平均)と, 母集団の標準偏差が,

    \[\hat a = \bar x = 9.87, \quad \hat \sigma = s = 0.49\]

    と推定された.

  • この推定はどの程度正しいのだろうか. というのも, \(\bar X\), も, \(S\) も, 標本(ここの例では, 3 回測定 1 セットの結果が標本である)によって変わるランダムな数(確率変数, random variable)だからである(\(\bar x\), \(s\) はその具体的な測定値から算出したものである).

標本平均の分布(中心極限定理)

  • 母集団を平均 \(\mu\), 分散 \(\sigma^2\) のある確率分布に従うランダムな量(確率変数)とする.

  • この母集団から大きさ \(n\) の標本をとる.

  • 標本平均を \(\bar X\) とすると, 次が成り立つ.

\[\frac{\bar X - \mu}{\sigma / \sqrt{n}} \sim \mathcal N(0, 1) \tag{4.8} \label{eq: CLT}\]
  • すなわち, 平均値 \(\bar X\)\(\mathcal N(\mu, \sigma^2/n)\), つまり, 平均 \(\mu\), 分散 \(\sigma_{\bar X}^2 = \sigma^2/n\) の正規分布に従う.

  • \(\bar X\) の標準偏差は, 母集団の標準偏差の \(1/\sqrt{n}\) 倍である.

  • 書き換えれば,

    \begin{equation} \bar X - \mu = \mathcal N(0, \sigma_\varepsilon^2 / n) \tag{4.9} \label{eq: CLT as difference between sample and population mean} \end{equation}

  • つまり, 標本平均と母集団の平均(真の値)の差は, 右辺の正規分布に従う.

  • 読者は式 \eqref{eq: X obeys nd}\eqref{eq: CLT} とを見比べて, その差異をしばし考えられたし.

Remark

  • 母集団が, 平均値と分散を持てば, 母集団がどのような分布であっても, 標本平均は \(\bar X\)\(\mathcal N(\mu, \sigma^2/n)\) に従う.

  • これが中心極限定理のすごいところで, また, 中心極限定理が濫用される原因でもある.

標本平均と真の値との差の分布

  • われわれの 3 回繰り返しの問題に戻ろう.

  • \(\bar X\) は, 中心極限定理により, 次式に従う.

\[\bar X - a \approx \mathcal N(0, \sigma_\varepsilon^2/n)\]
  • 問題は, \(\sigma_\varepsilon^2\) が未知なことである.

  • このために式 (4.5) を \(\bar x\)\(a\) との距離の分布の評価に使えない.

  • ではどうするか.

標本平均と真の値の差の分布 2

  • 実は, (4.5) の左辺の母集団の分散(未知)を, 標本の不偏分散に置き換えた量が, 自由度 \(n-1\)\(t\)-分布に従うことが分かっている.

\[\frac{\bar X - \mu}{S / \sqrt{n}} \sim \mathcal t_{n-1} \tag{4.10} \label{eq: tdist}\]
  • \(t\) 分布の導出は他所に譲るが, 不偏分散が \(\chi\)-二乗分布に従うことから, \(t\) 分布は正規分布と \(\chi\)-二乗分布が合わさった分布となっている.


例題 4.2

  • 例題 1.1 のデータから, 標本によって表現された, 母平均(真の値)に関する95%信頼区間を求めよ.

  • ヒント, 標本平均 \(\bar x\) は, 自由度 \(3-1 =2\)\(t\)-分布に従う.


解答例 4.2

  • 大きさ (サイズ) 3 の標本の「平均値」の分布は, 自由度 3-1=2 の \(t\)-分布に従う.

  • 平均値のまわりの 95% 両側信頼区間を求める場合には, \(\alpha=0.025\) の値を用いる. \(t\)-分布表から, 自由度 2, \(\alpha=0.025\) の値 \(t=4.303\) を用いる.

\begin{align*} \bar x - a & = (s /\sqrt{n}) t = (0.49 / \sqrt{3})(4.303) \\ & = 1.217 \end{align*}

  • これより, 95%信頼区間は,

\[9.87 \pm 1.22 \ \mathrm{\mu g/L}\]
  • あるいは \([8.65, 11.09]\)(単位は, μg/L)

4.4 標準誤差

平均値の標準誤差 (standard error of the mean)

  • 統計学では, 母集団の分布から計算される量をパラメーター (母数), データから計算される量を統計量(statistic)という.

  • 母平均, 母分散は母集団の分布から決まる量であるから, パラメーターである.

  • パラメーターの推定値の標準偏差を標準誤差という.

  • 例えば, 母集団の平均値 \(\mu\) の推定値は標本平均に等しい \(\hat \mu = \bar X\) が, この\(\bar X\) の標準偏差 \(\sigma_{\bar X}\)平均値の標準偏差という.

\[\sigma_{\bar X} = \frac{\sigma}{\sqrt n} \tag{4.11}\]
  • 母集団の標準偏差は, \(\sigma\) であるが, 大きさ \(n\) の標本にもとづく平均値の標準誤差は およそ \(\sigma/\sqrt{n}\) の大きさになる.

  • 母分散 \(\sigma^2\) は普通未知であるから, 標準誤差は次で推定する.

\[\hat \sigma_{\bar X} = \frac{S}{\sqrt n} \tag{4.12}\]

例題 4.3

  • 例題 4.1 のデータから, 母集団の平均値の推算値 \(\bar X\) の標準誤差を求めよ.


解答例 4.3

  • 標準誤差 \(\mathrm{se}\) は, 式 (4,12) によって計算 (推定) される (推定値には \(\wedge\) をつける).

\[\hat {\mathrm{se}} = \frac{0.4929}{\sqrt{3}} = 0.2845\]