◀ Previous | TOC | Next ▶ |
実験を行い, ある量を測定する。
実験を 3 回行い, この量に関する 3 つの値を得る.
その平均値と, データの信頼区間を求める。
測定値 \(X\) は, 真の値 \(a\) と, 正規分布に従うランダムなばらつき \(Y_\varepsilon\) の和であると考える.
\begin{equation} X = a + Y_\varepsilon \tag{4.1} \label{eq: X = a + Y} \end{equation}
\begin{equation} Y_\varepsilon \sim \mathcal N(0, \sigma_\varepsilon^2) \tag{4.2} \label{eq: error obeys normal} \end{equation}
記号 \(\sim\) は, 左辺のランダムな量(確率変数)が右辺の分布に従うことを示す.
\(\mathcal N(\mu, \sigma^2)\) は, 平均 \(\mu\), 分散 \(\sigma^2\) の正規分布を表す.
母集団は, 平均 \(a\), 分散 \(\sigma_\varepsilon^2\) の正規分布と考える.
\begin{equation}X \sim \mathcal N(a, \sigma_\varepsilon^2) \tag{4.3}\end{equation}
これは, 別の書き方をすれば, 次のようになる.
\begin{equation} \frac{X - a}{\sigma_\varepsilon} \sim \mathcal N (0, 1) \tag{4.4} \label{eq: X obeys nd} \end{equation}
\(\mathcal N(0, 1)\) を標準正規分布という.
ある「真の値」を測定し, 誤差を評価する, というよりも, 「平均 \(a\), 分散 \(\sigma_\varepsilon^2\)の正規分布」に従う母集団から, 大きさ \(n\) の標本(例えば 3 回の繰り返し測定なら, \(n=3\))をとる, と考えるほうが, 統計解析の意味を理解しやすい.
3 つの測定値は, この母集団からの大きさ \(3\)(サイズ 3, size 3)の標本(sample)であると考える. 標本の大きさ(標本サイズ, サンプルサイズ, size)と標本数(number of samples)を混同しないように. 前者はひとつの標本に含まれる数値あるいはベクトルの数である. 後者はそのような標本がいくつあるかを示す.
ここでは, 誤差が正規分布に従うと仮定しているが, この仮定が成り立たない場合にはこの章の方法は使えない. 今日, 様々な手法があり, 状況に応じて適切な方法を選択することが重要である. それができるためには, ある程度の統計学のリテラシーが必要である.
得られた標本から母集団の平均 \(a\)(真の値)を求めること.
標準偏差 \(\sigma_\varepsilon\) を推定すること.
信頼区間を推定すること.
統計学の慣例として, 確率変数を大文字, それ以外を小文字で示す.
例えば, 具体的な観測値(observation, 実現値, realization)は定数とみなせるので小文字で表す (\(x_1, x_2, \dotsc\) など) .
\(\bar X\), \(S^2\) は標本から計算される量であるが, 具体的な標本データをとる前は, これら自体が確率変数と考えられるので, 大文字であらわす.
これはおおよそのルールであり, 必ずしも常に当てはまるわけではない.
反応槽より, 100 μLのサンプルを 3 つとり, 成分 A の濃度を測定したところ, 次の値を得た. (単位は, μg/L)
標本平均と, 標本分散(不偏分散), 標準偏差(不偏分散基準)を求めよ.
結果をレポートするときに, 例えばどのように表現するか.
標本平均 \(\bar x\), 標本分散(不偏分散), \(s^2\), 標準偏差 \(s\) は, それぞれ
例えば, 平均値(標準偏差)という形で表す.
GUM に従うと, 標準偏差はの有効桁数は最大で 2 (次の計算に使うなど特別な場合に 3 であり, 平均はそれに位を揃えるので, 例えば
平均値(標準偏差)は, $9.87(0.49) $ μg/L
JIS Z9041 に従うと, 標本の大きさ \(n=3\) の場合は, 平均値は測定値よりひと桁下の位までとり, 標準偏差は最大 3 桁なので, GUM と同じか, あるいは標準偏差を有効桁数 3 にとって, 例えば,
平均値(標準偏差)は, $9.87(0.493) $ μg/L
平均値の有効数字(というか報告する桁数)は, 元の値より多い.
標準偏差有効桁数最大 3 桁(JIS Z9041), 2 桁(GUM, ただし特別な場合に 3).
平均値にの有効桁数ついては, 標本の大きさによって変わる(JIS Z9041).
データの不確かさの表し方はいくつもある. ふつう, 標準偏差, 標準誤差(後述), 信頼区間, のいずれかをレポートする.
基本的には, それぞれの分野の慣習に従う.
しかし, 学問分野も, 分野内の考えかたも常に変化しているので, 注意が必要である.
分野によっては, 統計学的に問題のある手法がまかり通っていたこともある. これは当然是正されるべきだろうし, 現在はかなり改善されているようにみえる.
標本の大きさ(\(n=3\)), 不偏分散(式 (3.5))をもとにした標準偏差を使っていることを, 実験方法のところ等に記しておくべきである.
標準偏差, 標準誤差については, \(9.87\pm 0.49\) のような表記は信頼区間と紛らわしいから避けるように, との意見がある.
このような計算を電卓で行う場面は減っている.
Excel などの統計計算機能を使って計算することが普通である.
下に, Python 上の Pandas を使った計算例を示す.
途中の計算の丸めの誤差などを考えずにすむので, 楽だし, 電卓の場合のような計算違いは起こりにくい.
ただし, 有効桁数については情報を何も与えてくれないので, そこは人間が判断するしかない.
統計解析では, 「平均」, 「分散」, 「標準偏差」などの量が, 何の平均なのか, 何の分散なのか, を明確にすることが極めて重要である.
母集団の量と標本の量との区別は基本中の基本である.
それ以外にも, 「〇〇の平均の平均」, 「〇〇の平均の分散」, といった値を扱うこともある.
統計学では, データから計算できる量は全て統計量として扱うことができる. これら統計量に対して, 平均, 分散, そして, さらに別の統計量が定義できる.
また, 統計学では, 多くの量を扱うため, 工学に比べて, 同じ記号を使い回す傾向がある.
例題 1 では, 大きさ 3 の標本(3 回の測定)から, 真の値(母集団の平均)と, 母集団の標準偏差が,
と推定された.
この推定はどの程度正しいのだろうか. というのも, \(\bar X\), も, \(S\) も, 標本(ここの例では, 3 回測定 1 セットの結果が標本である)によって変わるランダムな数(確率変数, random variable)だからである(\(\bar x\), \(s\) はその具体的な測定値から算出したものである).
母集団を平均 \(\mu\), 分散 \(\sigma^2\) のある確率分布に従うランダムな量(確率変数)とする.
この母集団から大きさ \(n\) の標本をとる.
標本平均を \(\bar X\) とすると, 次が成り立つ.
すなわち, 平均値 \(\bar X\) は \(\mathcal N(\mu, \sigma^2/n)\), つまり, 平均 \(\mu\), 分散 \(\sigma_{\bar X}^2 = \sigma^2/n\) の正規分布に従う.
\(\bar X\) の標準偏差は, 母集団の標準偏差の \(1/\sqrt{n}\) 倍である.
書き換えれば,
\begin{equation} \bar X - \mu = \mathcal N(0, \sigma_\varepsilon^2 / n) \tag{4.9} \label{eq: CLT as difference between sample and population mean} \end{equation}
つまり, 標本平均と母集団の平均(真の値)の差は, 右辺の正規分布に従う.
読者は式 \eqref{eq: X obeys nd} と \eqref{eq: CLT} とを見比べて, その差異をしばし考えられたし.
Remark
母集団が, 平均値と分散を持てば, 母集団がどのような分布であっても, 標本平均は \(\bar X\) は \(\mathcal N(\mu, \sigma^2/n)\) に従う.
これが中心極限定理のすごいところで, また, 中心極限定理が濫用される原因でもある.
われわれの 3 回繰り返しの問題に戻ろう.
\(\bar X\) は, 中心極限定理により, 次式に従う.
問題は, \(\sigma_\varepsilon^2\) が未知なことである.
このために式 (4.5) を \(\bar x\) と \(a\) との距離の分布の評価に使えない.
ではどうするか.
実は, (4.5) の左辺の母集団の分散(未知)を, 標本の不偏分散に置き換えた量が, 自由度 \(n-1\) の \(t\)-分布に従うことが分かっている.
\(t\) 分布の導出は他所に譲るが, 不偏分散が \(\chi\)-二乗分布に従うことから, \(t\) 分布は正規分布と \(\chi\)-二乗分布が合わさった分布となっている.
例題 1.1 のデータから, 標本によって表現された, 母平均(真の値)に関する95%信頼区間を求めよ.
ヒント, 標本平均 \(\bar x\) は, 自由度 \(3-1 =2\) の \(t\)-分布に従う.
大きさ (サイズ) 3 の標本の「平均値」の分布は, 自由度 3-1=2 の \(t\)-分布に従う.
平均値のまわりの 95% 両側信頼区間を求める場合には, \(\alpha=0.025\) の値を用いる. \(t\)-分布表から, 自由度 2, \(\alpha=0.025\) の値 \(t=4.303\) を用いる.
\begin{align*} \bar x - a & = (s /\sqrt{n}) t = (0.49 / \sqrt{3})(4.303) \\ & = 1.217 \end{align*}
これより, 95%信頼区間は,
あるいは \([8.65, 11.09]\)(単位は, μg/L)
統計学では, 母集団の分布から計算される量をパラメーター (母数), データから計算される量を統計量(statistic)という.
母平均, 母分散は母集団の分布から決まる量であるから, パラメーターである.
パラメーターの推定値の標準偏差を標準誤差という.
例えば, 母集団の平均値 \(\mu\) の推定値は標本平均に等しい \(\hat \mu = \bar X\) が, この\(\bar X\) の標準偏差 \(\sigma_{\bar X}\) を平均値の標準偏差という.
母集団の標準偏差は, \(\sigma\) であるが, 大きさ \(n\) の標本にもとづく平均値の標準誤差は およそ \(\sigma/\sqrt{n}\) の大きさになる.
母分散 \(\sigma^2\) は普通未知であるから, 標準誤差は次で推定する.
例題 4.1 のデータから, 母集団の平均値の推算値 \(\bar X\) の標準誤差を求めよ.
標準誤差 \(\mathrm{se}\) は, 式 (4,12) によって計算 (推定) される (推定値には \(\wedge\) をつける).
◀ Previous | TOC | Next ▶ |