◀ Previous | TOC | Next ▶ |
実験を行い, ある量を測定する。
実験を 3 回行い, この量に関する 3 つの値を得る.
その平均値と, データの信頼区間を求める。
測定値 \(X\) は, 真の値 \(a\) と, 正規分布に従うランダムなばらつき \(Y_\varepsilon\) の和であると考える.
\begin{equation} X = a + Y_\varepsilon \tag{4.1} \label{eq: X = a + Y} \end{equation}
\begin{equation} Y_\varepsilon \sim \mathcal N(0, \sigma_\varepsilon^2) \tag{4.2} \label{eq: error obeys normal} \end{equation}
記号 \(\sim\) は, 左辺のランダムな量(確率変数)が右辺の分布に従うことを示す.
\(\mathcal N(\mu, \sigma^2)\) は, 平均 \(\mu\), 分散 \(\sigma^2\) の正規分布を表す.
母集団は, 平均 \(a\), 分散 \(\sigma_\varepsilon^2\) の正規分布と考える.
\begin{equation}X \sim \mathcal N(a, \sigma_\varepsilon^2) \tag{4.3}\end{equation}
これは, 別の書き方をすれば, 次のようになる.
\begin{equation} \frac{X - a}{\sigma_\varepsilon} \sim \mathcal N (0, 1) \tag{4.4} \label{eq: X obeys nd} \end{equation}
\(\mathcal N(0, 1)\) を標準正規分布という.
ある「真の値」を測定し, 誤差を評価する, というよりも, 「平均 \(a\), 分散 \(\sigma_\varepsilon^2\)の正規分布」に従う母集団から, 大きさ \(n\) の標本(例えば 3 回の繰り返し測定なら, \(n=3\))をとる, と考えるほうが, 統計解析の意味を理解しやすい.
3 つの測定値は, この母集団からの大きさ \(3\)(サイズ 3, size 3)の標本(sample)であると考える. 標本の大きさ(標本サイズ, サンプルサイズ, size)と標本数(number of samples)を混同しないように. 前者はひとつの標本に含まれる数値あるいはベクトルの数である. 後者はそのような標本がいくつあるかを示す.
ここでは, 誤差が正規分布に従うと仮定しているが, この仮定が成り立たない場合にはこの章の方法は使えない. 今日, 様々な手法があり, 状況に応じて適切な方法を選択することが重要である. それができるためには, ある程度の統計学のリテラシーが必要である.
得られた標本から母集団の平均 \(a\)(真の値)を求めること.
標準偏差 \(\sigma_\varepsilon\) を推定すること.
信頼区間を推定すること.
統計学の慣例として, 確率変数を大文字, それ以外を小文字で示す.
例えば, 具体的な観測値(observation, 実現値, realization)は定数とみなせるので小文字で表す (\(x_1, x_2, \dotsc\) など) .
\(\bar X\), \(S^2\) は標本から計算される量であるが, 具体的な標本データをとる前は, これら自体が確率変数と考えられるので, 大文字であらわす.
これはおおよそのルールであり, 必ずしも常に当てはまるわけではない.
反応槽より, 100 μLのサンプルを 3 つとり, 成分 A の濃度を測定したところ, 次の値を得た. (単位は, μg/L)
標本平均と, 標本分散(不偏分散), 標準偏差(不偏分散基準)を求めよ.
結果をレポートするときに, 例えばどのように表現するか.
標本平均 \(\bar x\), 標本分散(不偏分散), \(s^2\), 標準偏差 \(s\) は, それぞれ
例えば, 平均値(標準偏差)という形で表す.
GUM に従うと, 標準偏差はの有効桁数は最大で 2 (次の計算に使うなど特別な場合に 3 であり, 平均はそれに位を揃えるので, 例えば
平均値(標準偏差)は, $9.87(0.49) $ μg/L
JIS Z9041 に従うと, 標本の大きさ \(n=3\) の場合は, 平均値は測定値よりひと桁下の位までとり, 標準偏差は最大 3 桁なので, GUM と同じか, あるいは標準偏差を有効桁数 3 にとって, 例えば,
平均値(標準偏差)は, $9.87(0.493) $ μg/L
平均値の有効数字(というか報告する桁数)は, 元の値より多い (なぜか?).
標準偏差有効桁数最大 3 桁(JIS Z9041), 2 桁(GUM, ただし特別な場合に 3).
平均値の有効桁数ついては, 標本の大きさによって変わる(JIS Z9041).
データの不確かさの表し方はいくつもある. ふつう, 標準偏差, 標準誤差(後述), 信頼区間, のいずれかをレポートする.
基本的には, それぞれの分野の慣習に従う.
しかし, 学問分野も, 分野内の考えかたも常に変化しているので, 注意が必要である.
分野によっては, 統計学的に問題のある手法がまかり通っていたこともある. これは当然是正されるべきだろうし, 現在はかなり改善されているようにみえる.
標本の大きさ(\(n=3\)), 不偏分散(式 (3.5))をもとにした標準偏差を使っていることを, 実験方法のところ等に記しておくべきである.
標準偏差, 標準誤差については, \(9.87\pm 0.49\) のような表記は信頼区間と紛らわしいから避けるように, との意見がある.
測定値の測定単位 |
測定値の個数 |
||
---|---|---|---|
0.1,1,10などの単位 |
− |
2〜20 |
21〜200 |
0.2,2,20などの単位 |
4未満 |
4〜40 |
41〜400 |
0.5,5,50などの単位 |
10未満 |
10〜100 |
101〜1000 |
平均値のけた数 |
測定値と同じ |
測定値より1けた多く |
測定値より2けた多く |
このような計算を電卓で行う場面は減っている.
Excel などの統計計算機能を使って計算することが普通である.
下に, Python 上の Pandas を使った計算例を示す.
途中の計算の丸めの誤差などを考えずにすむので, 楽だし, 電卓の場合のような計算違いは起こりにくい.
ただし, 有効桁数については情報を何も与えてくれないので, そこは人間が判断するしかない.
[68]:
import pandas as pd
x = [10.1, 10.2, 9.3]
df = pd.DataFrame(x)
df.describe()
[68]:
0 | |
---|---|
count | 3.000000 |
mean | 9.866667 |
std | 0.493288 |
min | 9.300000 |
25% | 9.700000 |
50% | 10.100000 |
75% | 10.150000 |
max | 10.200000 |
統計解析では, 「平均」, 「分散」, 「標準偏差」などの量が, 何の平均なのか, 何の分散なのか, を明確にすることが極めて重要である.
母集団の量と標本の量との区別は基本中の基本である.
それ以外にも, 「〇〇の平均の平均」, 「〇〇の平均の分散」, といった値を扱うこともある.
統計学では, データから計算できる量は全て統計量として扱うことができる. これら統計量に対して, 平均, 分散, そして, さらに別の統計量が定義できる.
また, 統計学では, 多くの量を扱うため, 工学に比べて, 同じ記号を使い回す傾向がある.
例題 1 では, 大きさ 3 の標本(3 回の測定)から, 真の値(母集団の平均)と, 母集団の標準偏差が,
と推定された.
この推定はどの程度正しいのだろうか. というのも, \(\bar X\), も, \(S\) も, 標本(ここの例では, 3 回測定 1 セットの結果が標本である)によって変わるランダムな数(確率変数, random variable)だからである(\(\bar x\), \(s\) はその具体的な測定値から算出したものである).
ここでは, \(X\) が式 (4.3) に従うとして母平均 \(a\) の信頼区間を算出する.
実際にこの問題にとりくむ前に, 中心極限定理について復習しておこう.
母集団を平均 \(\mu\), 分散 \(\sigma^2\) のある確率分布に従うランダムな量(確率変数)とする.
この母集団から大きさ \(n\) の標本をとる.
標本平均を \(\bar X\) とすると, \(n\) が十分大きいときに次が成り立つ.
\begin{equation} \frac{\bar X - \mu}{\sigma / \sqrt{n}} \sim \mathcal N(0, 1) \tag{4.5} \label{eq: CLT} \end{equation}
すなわち, 平均値 \(\bar X\) は \(\mathcal N(\mu, \sigma^2/n)\), つまり, 平均 \(\mu\), 分散 \(\sigma_{\bar X}^2 = \sigma^2/n\) の正規分布に従う.
\(\bar X\) の標準偏差は, 母集団の標準偏差の \(1/\sqrt{n}\) 倍である.
書き換えれば,
\begin{equation} \bar X - \mu = \mathcal N(0, \sigma_\varepsilon^2 / n) \label{eq: CLT as difference between sample and population mean} \tag{4.6} \end{equation}
つまり, 標本平均と母集団の平均(真の値)の差は, 右辺の正規分布に従う.
読者は式 \eqref{eq: X obeys nd} と \eqref{eq: CLT} とを見比べて, その差異をしばし考えられたし.
母集団が, 平均値と分散を持てば, 母集団がどのような分布であっても, 標本平均は \(\bar X\) は \(\mathcal N(\mu, \sigma^2/n)\) に従う.
これが中心極限定理のすごいところで, また, 中心極限定理が濫用される原因でもある.
われわれの 3 回繰り返しの問題に戻ろう. \(n\) が大きいとき, \(\bar X\) は, 中心極限定理により, 次式に従う.
問題は, \(\sigma_\varepsilon^2\) が未知なことと, \(n=3\) では, 中心極限定理が使えるほど大きくないことである. ではどうするか.
実は, (4.5) の左辺の母集団の分散(未知)を, 標本分散 (不偏分散) に置き換えた量が, 自由度 \(n-1\) の \(t\)-分布に従うことが分かっている. これは \(X\) が正規分布に従うときには, \(n\) が小さくても成り立つ.
\(t\) 分布の導出は他所に譲るが, 不偏分散が \(\chi\)-二乗分布に従うことから, \(t\) 分布は正規分布と \(\chi\)-二乗分布が合わさった分布となっている.
\(t\) 分布を用いて, 信頼区間を算出しよう.
例題 1.1 のデータから, 標本によって表現された, 母平均(真の値)に関する95%信頼区間を求めよ.
ヒント, 標本平均 \(\bar x\) は, 自由度 \(3-1 =2\) の \(t\) 分布に従う.
大きさ (サイズ) 3 の標本の「平均値」の分布は, 自由度 3-1=2 の \(t\)-分布に従う.
平均値のまわりの 95% 両側信頼区間を求める場合には, \(\alpha=0.025\) の値を用いる. \(t\)-分布表から, 自由度 2, \(\alpha=0.025\) の値 \(t=4.303\) を用いる.
\begin{align*} \bar x - a & = (s /\sqrt{n}) t = (0.493/ \sqrt{3})(4.303) \\ & = 1.2248 \end{align*}
これより, 95%信頼区間は,
あるいは \([8.65, 11.09]\)(単位は, μg/L)
[65]:
import numpy as np
import scipy.stats
x = [10.1, 10.2, 9.3]
x = np.array(x)
n = len(x)
res = scipy.stats.t.interval(0.95, df=n-1, loc=np.mean(x), scale=x.std(ddof=1) / np.sqrt(3))
print(res)
# あるいは
res2 = scipy.stats.t.interval(0.95, df=n-1, loc=np.mean(x), scale=scipy.stats.sem(x))
print(res2)
(8.641270632027913, 11.092062701305418)
(8.641270632027913, 11.092062701305418)
統計学では, 母集団の分布から計算される量をパラメーター (母数), データから計算される量を統計量(statistic)という.
母平均, 母分散は母集団の分布から決まる量であるから, パラメーターである.
母数 (パラメーター) の推定値の標準偏差を標準誤差という.
例えば, 母集団の平均値 \(\mu\) の推定値は標本平均に等しい \(\hat \mu = \bar X\) が, この\(\bar X\) の標準偏差 \(\sigma_{\bar X}\) を平均値の標準偏差という.
母集団の標準偏差は, \(\sigma\) であるが, 大きさ \(n\) の標本にもとづく平均値の標準誤差は およそ \(\sigma/\sqrt{n}\) の大きさになる.
母分散 \(\sigma^2\) は普通未知であるから, 平均値の標準誤差は次で推定する.
例題 4.1 のデータから, 母集団の平均値の推算値 \(\hat \mu = \bar X\) の標準誤差を求めよ.
標準誤差 \(\mathrm{se}\) は, 式 (4,12) によって計算 (推定) される (推定値には \(\wedge\) をつける).
ある化学物質の濃度を 3 回測定して以下の値を得た (単位は \(\mathrm{mg/L}\)).
それぞれについて, 平均値および標準偏差を求めよ.
この際, 標準偏差の有効桁数を 3 桁として値を示せ (あとで使うと考える).
x = [11.0, 12.0, 13.0]
x = [11.0, 12.0, 14.0]
x = [11.0, 12.0, 15.0]
上記標本それぞれについて, 標準誤差をもとめよ.
上記標本それぞれについて, 90%信頼区間, 95$信頼区間を示せ.
ある研究で, 同一条件で 5 回実験を行い, 標本平均 \(\bar X = 2.1\), 標本標準偏差 \(S = 1.2\) を得た.
Student の \(t\) 検定で, (1) 90% 信頼区間, (2) 95% 信頼区間を求めよ.
自由度 7 の t 分布の \(\alpha=0.005, 0.01, 0.025, 0.05, 0.1\) に相当する \(t_{0.995}, t_{0.99}, t_{0.975}, t_{0.95}, t_{0.9}\) を求めよ.
標準正規分布 \(\mathcal N (0, 1)\) と, 自由度 \(2, 5, 10\) の \(t\)分布の確率密度関数(pdf) を, \(-4\le x \le 4\) の範囲で図に示せ.
自由度が 1 から 10 までのカイ二乗分布の確率密度関数 (pdf) を \(0 \le x \le 20\) の範囲で図に示せ.
◀ Previous | TOC | Next ▶ |