◀ Previous | TOC | Next ▶ |
同一条件での繰り返し実験の数が限られる(3〜5). 例えば, ファーメンテーターでの酵素反応実験ならば, 1 回の実験に数日かかることはざら. 多くの条件による違いを検討したければ, 1 条件での繰り返し数は限られる.
例として, 条件 I と条件 II でそれぞれ 3 回の繰り返し実験を行って, 生産物濃度
これらは, それぞれ, 母集団 I, II からのサイズ 3 のサンプルである.
この 2 つの実験結果に有意な差があるかどうか, を判定するのであるが, 統計的には, 条件 I の母集団の平均値
「有意差がある」, 「有意差があるとは言えない」, という 0 か 1 かの判断ではなく,
通常,
しかし,
否定したい結論を帰無仮説として設定, この仮説のもとに実験結果のようなデータが得られる確率(
2 つのデータに有意な差があるかどうかを判定する場合, 帰無仮説(null hypothesis)
対立仮説(alternative hypothesis)
仮説は, パラメーターについての仮説であることに注意.
母集団について検定するわけである.
英語では Type-I error, Type-II error である. 訳語はどうも堅苦しい.
第 1 種過誤は, 実は
第 2 種過誤は, 実は
化学, 生物分野, 化学工学・生物化学工学では, 同一条件での繰り返し実験数を多くとることは難しく, 慣習として 3 回程度の繰り返し実験の結果からデータ解析を行うことが多い.
このような条件下で, 有意差の有無について検定する方法は, Student の
Student の
2 つの母集団がともに正規分布に従っている,
2 つの母集団の分散が等しい
2 つの母集団は独立である
という仮定の上に成り立っている.
仮定が成り立っているか不明な場合については後述
例えば, 2 つの標本,
例えば, 独立な 2 標本の
この形だとややこしくみえるが, 実は,
また, ここで, 等分散を仮定していることから, 平方和を足すことができる.
step 2.2 平均値の差
これらの導出は別項
自由度
自由度
ここで,
95%信頼区間に 0 が含まれていれば, 0.05 水準で有意差がある, ということになる.
条件 A, 条件 B ののもとで, それぞれ 3 回の繰り返し実験を行い, 試料中の成分 P の濃度として次の値を得た (単位は, μg/L). それぞれの標本は, 同じ分散をもつ正規分布から得られたものと考えてよいとする.
条件 |
測定値 |
---|---|
A |
10.1 10.4 9.8 |
B |
10.7 11.6 11.3 |
標本 A, 標本 B それぞれの標本平均と標本標準偏差(不偏分散の平方根)を求めよ.
標本 A と標本 B の平均値の差の, 合併分散, 標準偏差を求めよ.
標本 A と標本 B の平均値の差の 95% 信頼区間を求めよ.
結果は, 水準
独立 2 群の差の検定であり, ここでは, 独立 2 標本
標本 A, 標本 B それぞれの平均値, 標本分散(不偏分散)と標準偏差(題 1.1 を参照).
平均値の差の標本合併分散
信頼区間による検定: 95% 信頼区間が 0 を含まないので, 水準
scipy.stats.ttest_ind を使う.
使い方は極めて簡単.
paired
[44]:
# Scipy.stats.ttest_ind
import numpy as np
import scipy.stats
x = [10.1, 10.4, 9.8]
y = [10.7, 11.6, 11.3]
res = scipy.stats.ttest_ind(x, y)
print(res)
Ttest_indResult(statistic=-3.47850542618521, pvalue=0.02538644793661544)
Student の
2 群間Student’s :math:`t`-test の仮定: 正規分布, 等分散性, 独立,
サンプル数が少ないと正規性の検定は無理(正規性を仮定しても問題ないという根拠が必要だが, 必ずしも根拠が明らかでない場合にも使われれいる).
慣習的に, 同じものを測定しているのだから, 実験データのばらつきは正規分布に従っているだろう, という期待でやっているのが実情であろう.
統計学的にはクエスチョンマークがつくが, 各専門分野ではそれぞれの判断があり得る.
等分散性が成立するときもしないときも, Welch の
Welch の
2 つの母集団がともに正規分布に従っている,
2 つの母集団は独立である,
2 つの母集団の分散が等しいか否かはわからない,
ときに使う.
次のような独立なサンプルが得られたとする.
Welch の
x = [0.61, 1.69, 0.75 , 0.44, 1.16]
y = [1.43, 1.76, 1.79, 1.33]
[69]:
import scipy.stats
x = [0.61, 1.69, 0.75 , 0.44, 1.16]
y = [1.43, 1.76, 1.79, 1.33]
res = scipy.stats.ttest_ind(x, y, equal_var = False)
print(res)
Ttest_indResult(statistic=-2.5649599674782246, pvalue=0.043481803801431025)
Student |
Welch |
|
---|---|---|
等分散性 |
等分散が確実 |
等分散かどうか不明 |
自由度 |
h:: hat nu = frac{left(dfrac{S_1^2}{n_1} + dfrac{S_2^2}{n_2} right)^2}{dfrac{(S_1^2/n_1)^2}{n_1 - 1} + dfrac{(S_2^2/n_2)^2}{n_2 - 1}} |
ここで, Student の
合併分散が式 (2.1) のように計算できるのはどのような場合か.
等分散が成り立つかどうかが不明な場合, まず, F検定で等分散が成り立つかどうかを確認し, この仮定が成り立った場合に Student の t 検定, 成り立たなかった場合に, Welch の t 検定を用いる, という手順がある. 一見もっともそうに見えるが, このやり方には批判がある. web を検索して, なぜこのやり方がダメなのか, 批判派の論点を簡潔にまとめよ.
前章の例題 4.1 で, サンプル
真の値が 8 以下であることの検定について帰無仮説と対立仮説を示せ.
それぞれについて, 第1種過誤, 第2種過誤はどのような場合か示せ.
次の2つのサンプルは共に正規分布に従い, 分散も等しいことがわかっている.
2 つのサンプルが同じ母集団から出たものかどうか検定せよ.
x = [0.8, 2.1, 0.7, 1.3, 0.5]
y = [4.7, 1.8, 2.2, 2.4, 3.7]
次の2つのサンプルは共に正規分布に従うが, 分散については情報がない.
2 つのサンプルが同じ母集団から出たものかどうか検定せよ.
x = [2.3, 1. , 1.1, 0.5, 0.6]
y = [3.3, 5.4, 2.5, 3.4, 1.8]
◀ Previous | TOC | Next ▶ |