検定の誤りと解釈
第1種・第2種の過誤、統計的有意差の正しい解釈、よくある誤解
できるようになること
- 第1種・第2種の過誤の違いとトレードオフを説明できる
- 統計的有意差と実質的な重要性の違いを区別できる
- p値に関するよくある誤解を正しく指摘できる
検定における2つの誤り
検定の判定は、2種類の誤りを犯す可能性があります。
第1種の過誤(αエラー)
第1種の過誤は、帰無仮説が正しいのに、誤って棄却してしまう誤りです。
例:実際には効果がないのに、「効果がある」と判定してしまう。
第1種の過誤が起こる確率は、有意水準 α で制御されています。α = 0.05 なら、(同じ手順を繰り返したときに)長期的に約5%の割合で起こります。
第2種の過誤(βエラー)
第2種の過誤は、帰無仮説が誤りなのに、棄却できない誤りです。
例:実際には効果があるのに、「効果がない」と判定してしまう。
第2種の過誤が起こる確率を β(ベータ)といいます。
2つの誤りの関係
| 帰無仮説が実際には正しい | 帰無仮説が実際には誤り | |
|---|---|---|
| 帰無仮説を棄却 | 第1種の過誤(確率 α) | 正しい判定 |
| 帰無仮説を棄却しない | 正しい判定 | 第2種の過誤(確率 β) |
有意水準 α を小さく設定する(棄却の基準を厳格にする)と、帰無仮説を棄却しにくくなるため、結果として対立仮説が真であっても棄却できない確率 β が増加します。このトレードオフを考慮して、有意水準を選びます。
統計的有意差の意味
「統計的に有意である」という言葉は、慎重に解釈する必要があります。
統計的有意差とは
統計的有意差は、「観測された差が偶然では説明しにくい」という意味です。
これは次のことを意味しません:
- 差が大きい
- 差が実質的に重要である
- 対立仮説が正しいと証明された
実質的な重要性との違い
例1:標本サイズ10000で、平均点が0.1点上がり、p値 < 0.05。統計的には有意だが、0.1点の差は実質的には意味がない。
例2:標本サイズ20で、平均点が10点上がり、p値 = 0.08。統計的には有意でないが、10点の差は実質的には大きい。
統計的有意差と実質的な重要性は、別の概念です。
効果の大きさは、p値ではなく、平均差そのものや標準化した差(効果量)で評価します。統計的有意差だけでなく、効果量も合わせて報告することが重要です。
よくある誤解
- 誤解1:p値は「帰無仮説が正しい確率」 — p値は、帰無仮説が正しいとしたとき、このようなデータが得られる確率です。帰無仮説を前提とした条件付き確率であって、帰無仮説が正しい確率ではありません。
- 誤解2:有意でない = 差がない — p値が有意水準以上であることは、差があるとは言えない(証拠不十分)という意味です。「差がない」と証明したわけではありません。帰無仮説を「採択」するという言い方は避けるべきです。
- 誤解3:p値が小さいほど効果が大きい — p値の大きさは、効果の大きさを反映しません。標本サイズが大きければ、小さな効果でもp値は小さくなります。
- 誤解4:有意水準0.05は絶対的な基準 — 0.05は慣習的な基準であって、分野や文脈によって適切な基準は異なります。
- 誤解5:統計的に有意 = 実質的に重要 — 統計的有意差は、実質的な重要性を保証しません。効果量も合わせて評価する必要があります。
まとめ
検定には2つの誤り(第1種の過誤、第2種の過誤)があり、有意水準でバランスを取ります。第1種の過誤を減らすと第2種の過誤が増える、というトレードオフがあります。
「統計的に有意」とは、観測された差が偶然では説明しにくいという意味であり、差が大きいことや実質的に重要であることを意味しません。
p値と効果の大きさ(効果量)を合わせて評価することが重要です。