Takuya Kawanishi

7. Bootstrap

7.1 標準誤差

  • Bootstrap で標準誤差の推定を行う.

  • 中心極限定理により, 標本平均の分布は, 近似的に

\[\bar X_n \sim \mathcal N\left(\mu, \frac{\sigma^2}{n}\right)\]
  • \(\bar X_n\) を母平均 \(\mu\) の推定値と考える.

\[\hat \mu = \bar X_n\]
  • \(\hat \mu\) は近似的に, \(\mathcal N\left(\mu, \frac{\sigma^2}{n}\right)\) に従う.

定義 7.1

  • 標準誤差とは, 母数の推定値の標準偏差である.


例題 7.1

  • 標本サイズ \(n\) の標本平均 \(\bar X\)\(\mu\) の推定値 \(\hat \mu\) と考えた時, \(\hat \mu\) の標準誤差を求めよ


解答 7.1

  • \(\hat \mu\) は 近似的に次の分布に従うと考えられる.

\[\mathcal N \left( \mu, \frac{\sigma^2}{n}\right)\]
  • ここで, \(\mu\)\(\sigma^2\) も未知なので, 代わりに \(\hat \mu\), \(S^2\) を用いる.

  • このため 標準誤差 \(\operatorname{se}\) の推定値 \(\hat {\operatorname{se}}\) を求めることになる.

\[\hat {\operatorname{se}} = \sqrt{\frac{S^2}{n}}\]

ここで, \(S^2\) は標本分散.

\[S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar X_n)^2\]

Remark

  • \(\operatorname{se}\) の 1.96 倍が, 両側検定 95% の値になる. (\(n\) が十分大きい場合)

Question

  • 標本サイズが大きければ標準誤差を用いて信頼区間を求めて問題ない.

  • 標本サイズが小さければ問題あり.

  • 平均以外の母数の標準誤差は?


例題 7.2

  • マウスの生存時間, ある処置をした場合としなかった場合.

処置

生存時間

あり (treated)

94, 197, 16, 38, 99, 141, 23

なし (control)

52, 104, 146, 10, 51, 30, 40, 27, 46

  • データは, Efron and Tibshirani (1994) から.

  • 処置ありグループ, 処置なしグループ,平均値と標準誤差を求めよ.

  • 平均値の差とその標準誤差を求めよ.

  • 平均値の差の, その標準偏差に対する割合を求めよ.


解答 7.2

処置

平均

推定標準誤差

あり

86.86

25.24

なし

56.22

14.16

30.63

28.93

差/推定標準誤差

1.06

7.2 Bootstrap

ノンパラメトリック・ブートストラップ

  • 得られた標本から重複を許して同じサイズのブートストラップサンプルを再サンプリング (resampling)

  • 例えば, あるサンプル

\[\boldsymbol x = [x_1, x_2, x_3, x_4, x_5, x_6, x_7]\]
  • これから, ブートストラップサンプル \(\boldsymbol x^*\) をとる. 例えば

\[\boldsymbol x^* = [x_5, x_7, x_5, x_4, x_7, x_3, x_1]\]
  • \(B\) 個の \(\boldsymbol x^*\) をつくる.

  • 添字をつけるときだが, このノートでは, Efron and Tibshirani (1994) にならって, 上付きとする. \(\boldsymbol x^{*1}, \boldsymbol x^{*2}, \dotsc, \boldsymbol x^{*B}\)

  • \(t\) を統計量(statistics)とする. つまり, \(t\) はデータの関数, \(t(\boldsymbol x)\).

  • ブートストラップにより, \(B\) 個の \(t(\boldsymbol x^*)\) が得られる.

  • \(t(\boldsymbol x^{*1}), t(\boldsymbol x^{*2}), \dotsc, t(\boldsymbol x^{*B})\)

\[\hat{\operatorname{se}}_\mathrm{boot} = \left[\frac{1}{B-1}\sum_{b=1}^B \left\{ t(\boldsymbol x^{*b}) - t(\cdot)) \right\}^2 \right]^{1/2}\]
\[t(\cdot) = \frac{1}{B} \sum_{b=1}^B t(\boldsymbol x^{*b})\]

例題 7.3

  • マウスのデータから, それぞれのグループの(それぞれのサイズの)ブートストラップ・サンプルを \(B=2000\) 個作成し, そのヒストグラムを描け. (bins=20 とする)

  • ブートストラップによる, 処置あり, なし, ありとなしの差, の生存時間の平均値, 推定標準誤差を求めよ.

  • 平均値の差と「差の推定標準誤差」の比を求めよ.


解答例 7.3

bootstrap histgram

\(\textsf{ヒストグラム }\) \(B=2000\).

処置

平均値

推定標準誤差

あり

86.96

23.50

なし

56.29

13.53

30.67

27.12

差/推定標準誤差

1.13

  • 平均値の分布の形がシミュレートできるので, 正規分布近似よりは正確になることが期待できる.

  • いつもそうだとは限らない.