検出力とサンプルサイズ設計

実験を設計する前に「差を見つける力」を計算する

難易度 Lv 4 / 10想定時間:約25

できるようになること


有意差が出なかった。本当に差がないのか?

ある研究者が新しい鎮痛薬の効果を調べる臨床試験を行いました。患者10人に薬を投与し、服用前後の痛みスコアの変化量(後 − 前)を1標本 t 検定で調べたところ、p = 0.18 でした。

有意水準 0.05 を超えたので、「この薬には効果がない」と結論しました。

この結論は正しいでしょうか。

実は、この研究には別の可能性があります。薬は本当に効くかもしれない。ただし、実験の設計が「差を見つける力」を持っていなかったのかもしれません。

「p値は何を測っていて、何を測っていないか」で学んだように、有意差が出なかった原因は2つに分かれます。

  1. 本当に差がない(または非常に小さい)
  2. 差はあるが、検出する力が足りなかった

この「差を検出する力」を数値で測ったものが、検出力です。


検出力とは何か

検出力(Statistical Power)は、対立仮説が正しいとき、正しく帰無仮説を棄却できる確率です。

「検定の誤りと解釈」で学んだ第2種の過誤(β\beta)と裏表の関係にあります。

検出力=1β\text{検出力} = 1 - \beta

よく使われる目標値は 0.80(80%) です。真の効果があるとき、80% の確率でそれを検出できる設計を目指します。

ポイント

検出力は実験の前に計算するものです。「実験後に観測された結果から計算した検出力(事後検出力)」は、本質的に p 値を別の数字に変換したに過ぎず、新しい情報をもたらしません。「p値は何を測っていて、何を測っていないか」の単元でも触れた通り、この使い方は誤りです。


検出力を視覚的に理解する

検出力が何を意味するかを、2つの分布を重ねて考えると分かりやすくなります。

帰無仮説(H0H_0)が正しいときの検定統計量の分布と、対立仮説(H1H_1)が正しいときの分布を横に並べて描きます。

両側検定の場合、棄却域は帰無分布の両裾(各 α/2\alpha/2)に置かれます。ここでは説明を簡潔にするため、効果がプラス方向の場合を想定し、右裾の棄却域に注目します。このとき、対立分布のうち棄却域に入る面積が検出力です。

面積意味記号
帰無分布の棄却域(H₀が正しいとき)誤って棄却する確率α
対立分布のうち棄却域に入る部分(H₁が正しいとき)正しく棄却できる確率1 − β(検出力)
対立分布のうち棄却域に入らない部分(H₁が正しいとき)見逃してしまう確率β

2つの分布の重なりが小さいほど、棄却域と対立分布の位置が離れるため、検出力は高くなります。


検出力に影響する4つの要因

検出力を高める(= 2つの分布の重なりを減らす)ためには、何を変えればよいのでしょうか。影響する要因は4つあります。

1. サンプルサイズ(nn

nn を増やすと、標本平均のばらつき(標準誤差 =σ/n= \sigma / \sqrt{n})が小さくなります。すると、帰無分布も対立分布も両方が「細く」なり、重なりが減ります。

nn を増やす → 検出力が上がる

これが最も直接的に検出力を制御できる要因です。

2. 効果量(δ\delta

効果量は、検出したい差の大きさです。母平均の差の検定では δ=μ1μ0\delta = \mu_1 - \mu_0 や、標準化した差(Cohen's d=δ/σd = \delta / \sigma)で表します。

効果量が大きいほど、2つの分布の中心が離れ、重なりが小さくなります。

効果量が大きい → 検出力が上がる

ただし、効果量は研究者が「勝手に大きくする」ものではありません。**「どの程度の差が臨床的・実用的に意味があるか」**を事前に決めて、その値を使います。

3. 有意水準(α\alpha

α\alpha を大きく設定すると(例:0.01 → 0.05 → 0.10)、棄却域が広がります。すると、対立分布のうち棄却域に入る割合が増え、検出力が上がります。

α\alpha を大きくする → 検出力が上がる(ただし第1種の過誤も増える)

α\alphaβ\beta はトレードオフの関係にあります。第1種の過誤を厳しく制御するために α\alpha を小さくすると、検出力が下がります。

4. データのばらつき(σ\sigma

母集団のばらつきが大きいほど、標準誤差が大きくなり、2つの分布の重なりが増えます。

σ\sigma が小さい → 検出力が上がる

σ\sigma は通常、研究者が直接制御できない値です。ただし、測定方法を改善したり、ノイズの多い被験者を除いた均一な母集団を対象にすることで、実質的に σ\sigma を下げる設計が可能です。


必要サンプルサイズの計算

検出力を目標値(例:0.80)に設定したとき、何人のサンプルが必要かを事前に求めることができます。

母平均の検定(1標本、両側)での公式

帰無仮説 H0:μ=μ0H_0: \mu = \mu_0 を有意水準 α\alpha(両側)、検出力 1β1 - \beta で検定するとき、必要なサンプルサイズ nn は次の式で求まります。

n(zα/2+zβδ/σ)2n \geq \left( \frac{z_{\alpha/2} + z_{\beta}}{\delta / \sigma} \right)^2

よく使う臨界値:

設定値対応する z 値
α = 0.05(両側)→ z_1.96
1 − β = 0.80 → z_β0.842
1 − β = 0.90 → z_β1.282
1 − β = 0.95 → z_β1.645

例:鎮痛薬の臨床試験

先ほどの鎮痛薬の試験に戻ります。設計条件を次のように決めたとします。

必要サンプルサイズを計算します。

n(1.96+0.84210/15)2=(2.802×1510)2=(2.802×1.5)2=(4.203)217.67n \geq \left( \frac{1.96 + 0.842}{10 / 15} \right)^2 = \left( 2.802 \times \frac{15}{10} \right)^2 = (2.802 \times 1.5)^2 = (4.203)^2 \approx 17.67

小数点以下を切り上げて、n=18n = 18必要です。

最初の試験では n = 10 でした。必要なサンプルサイズの半分強しかなかったため、効果があっても見つけられなかった可能性が高かったのです。

補足

この公式は母分散が既知の場合の近似式です。実際には母分散が未知であるため、t分布を使ったより正確な計算が必要になりますが(反復計算が必要)、設計段階の目安としてはこの正規近似が広く使われています。


検出力曲線の読み方

nn を1つに固定せず、nn を横軸にして検出力を縦軸にプロットしたグラフが検出力曲線(Power Curve)です。

効果量が大きいほど、同じ nn でも検出力が高くなるため、曲線は上にシフトします。

検出力曲線から読み取れること:

先ほどの1標本の設定(δ=10\delta = 10σ=15\sigma = 15α=0.05\alpha = 0.05 両側)で n=10n = 10 とすると、検出力は約 0.47(47%)です。つまり、薬が本当に効くとしても、この設計では約半分の確率でしか検出できません。有意差が出なかった理由が「設計の問題」である可能性が高いことが分かります。


2標本の場合

2標本の平均差の検定(各群 nn 人、等標本)では、必要サンプルサイズの公式が次のようになります。

n2(zα/2+zβδ/σ)2n \geq 2 \left( \frac{z_{\alpha/2} + z_{\beta}}{\delta / \sigma} \right)^2

1標本の公式に係数 2 がついた形です。これは、独立した2つの群の平均のを検定するとき、各群の分散が足し合わされて(σ2/n+σ2/n=2σ2/n\sigma^2/n + \sigma^2/n = 2\sigma^2/n)、1標本のときと同じ標準誤差を保つには各群の nn を2倍にする必要があるためです。各群 nn 人、合計 2n2n 人が必要になります。

ポイント

研究によってはバランスの取れない設計(各群のサンプルサイズが異なる)を使う場合もあります。コスト制約や倫理的配慮(治療群を最小化するなど)が理由になることがあり、その場合は別の公式を用います。基本は等分配から考え始めることが推奨されます。


よくある誤解

注意
  • 誤解1:有意差が出なかったので、検出力を計算して「やっぱり差はなかった」と補強する — 実験後に計算した事後検出力は p 値を別の単位に変換したものに過ぎず、「差がない」という証拠にはなりません。検出力は実験のに設計目的で計算します。
  • 誤解2:サンプルサイズは大きければ大きいほどよい — n が大きすぎると、実用的意味のない微小な差までが有意になります。必要なサンプルサイズを見積もり、目的に見合った規模の研究を設計することが重要です。
  • 誤解3:検出力 0.80 は絶対的な基準 — 0.80 は慣習的な目安であり、分野や文脈によって異なります。医薬品の規制承認試験では 0.90 以上が要求されることも多く、予備的研究では 0.70 を使うこともあります。
  • 誤解4:効果量は大きく設定するほど節約できる — 効果量を大きく設定すれば必要 n は減りますが、実際の効果がそれより小さければ検出できません。効果量は「実用的に意味のある最小の差」を根拠に設定する必要があります。

まとめ

検出力(1β1 - \beta)は、真の効果があるときに正しく検出できる確率です。有意差が出なかったとき、それが「差がない」のか「検出力が不十分だった」のかを区別するために不可欠な概念です。

検出力を高める要因は4つあります。サンプルサイズ(nn を増やす)、効果量(δ\delta が大きい)、有意水準(α\alpha を大きくする、ただしトレードオフあり)、ばらつき(σ\sigma を小さくする)です。

実験を設計する前に、「どの程度の効果を検出したいか」を決め、目標検出力(通常 0.80)を達成する nn を逆算します。この手続きが、無駄なく信頼できる研究を作る出発点になります。