検定の誤りと解釈

第1種の過誤（偽陽性）と第2種の過誤（偽陰性）の意味、統計的有意差の正しい解釈を学びます。検定結果のよくある誤解も整理します。

難易度 Lv 4 / 10想定時間：約20分

検定の判定は、2種類の誤りを犯す可能性があります。

第1種の過誤は、帰無仮説が正しいのに、誤って棄却してしまう誤りです。

例：実際には効果がないのに、「効果がある」と判定してしまう。

第1種の過誤が起こる確率は、有意水準 α で制御されています。α = 0.05 なら、（同じ手順を繰り返したときに）長期的に約5%の割合で起こります。

第2種の過誤は、帰無仮説が誤りなのに、棄却できない誤りです。

例：実際には効果があるのに、「効果がない」と判定してしまう。

第2種の過誤が起こる確率を β（ベータ）といいます。

	帰無仮説が実際には正しい	帰無仮説が実際には誤り
帰無仮説を棄却	第1種の過誤（確率 α）	正しい判定
帰無仮説を棄却しない	正しい判定	第2種の過誤（確率 β）

有意水準 α を小さく設定する（棄却の基準を厳格にする）と、帰無仮説を棄却しにくくなるため、結果として対立仮説が真であっても棄却できない確率 β が増加します。このトレードオフを考慮して、有意水準を選びます。

「統計的に有意である」という言葉は、慎重に解釈する必要があります。

統計的有意差は、「観測された差が偶然では説明しにくい」という意味です。

これは次のことを意味しません：

例1：標本サイズ10000で、平均点が0.1点上がり、p値 < 0.05。統計的には有意だが、0.1点の差は実質的には意味がない。

例2：標本サイズ20で、平均点が10点上がり、p値 = 0.08。統計的には有意でないが、10点の差は実質的には大きい。

統計的有意差と実質的な重要性は、別の概念です。

ポイント

効果の大きさは、p値ではなく、平均差そのものや標準化した差（効果量）で評価します。統計的有意差だけでなく、効果量も合わせて報告することが重要です。

注意

誤解1：p値は「帰無仮説が正しい確率」 — p値は、帰無仮説が正しいとしたとき、このようなデータが得られる確率です。帰無仮説を前提とした条件付き確率であって、帰無仮説が正しい確率ではありません。
誤解2：有意でない = 差がない — p値が有意水準以上であることは、差があるとは言えない（証拠不十分）という意味です。「差がない」と証明したわけではありません。帰無仮説を「採択」するという言い方は避けるべきです。
誤解3：p値が小さいほど効果が大きい — p値の大きさは、効果の大きさを反映しません。標本サイズが大きければ、小さな効果でもp値は小さくなります。
誤解4：有意水準0.05は絶対的な基準 — 0.05は慣習的な基準であって、分野や文脈によって適切な基準は異なります。
誤解5：統計的に有意 = 実質的に重要 — 統計的有意差は、実質的な重要性を保証しません。効果量も合わせて評価する必要があります。

検定には2つの誤り（第1種の過誤、第2種の過誤）があり、有意水準でバランスを取ります。第1種の過誤を減らすと第2種の過誤が増える、というトレードオフがあります。

「統計的に有意」とは、観測された差が偶然では説明しにくいという意味であり、差が大きいことや実質的に重要であることを意味しません。

p値と効果の大きさ（効果量）を合わせて評価することが重要です。