検出力とサンプルサイズ設計

実験を設計する前に「差を見つける力（検出力）」を計算し、必要なサンプルサイズを決める方法を学びます。効果量と検出力の関係を扱います。

難易度 Lv 4 / 10想定時間：約25分

できるようになること

検出力（Statistical Power）の定義と、それに影響する4つの要因を説明できる
目標の検出力を達成するために必要なサンプルサイズを計算できる
検出力曲線を読み、実験設計の判断に使える

有意差が出なかった。本当に差がないのか？

ある研究者が新しい鎮痛薬の効果を調べる臨床試験を行いました。患者10人に薬を投与し、服用前後の痛みスコアの変化量（後 − 前）を1標本 t 検定で調べたところ、p = 0.18 でした。

有意水準 0.05 を超えたので、「この薬には効果がない」と結論しました。

この結論は正しいでしょうか。

実は、この研究には別の可能性があります。薬は本当に効くかもしれない。ただし、実験の設計が「差を見つける力」を持っていなかったのかもしれません。

「p値は何を測っていて、何を測っていないか」で学んだように、有意差が出なかった原因は2つに分かれます。

本当に差がない（または非常に小さい）
差はあるが、検出する力が足りなかった

この「差を検出する力」を数値で測ったものが、検出力です。

検出力とは何か

**検出力（**Statistical Power）は、対立仮説が正しいとき、正しく帰無仮説を棄却できる確率です。

「検定の誤りと解釈」で学んだ第2種の過誤（ $\beta$ ）と裏表の関係にあります。

\text{検出力} = 1 - \beta

$\beta$ ：対立仮説が正しいのに、棄却できない確率（見逃し率）
$1 - \beta$ ：対立仮説が正しいとき、正しく棄却できる確率（検出率）

よく使われる目標値は 0.80（80%）です。真の効果があるとき、80% の確率でそれを検出できる設計を目指します。

ポイント

検出力は実験の前に計算するものです。「実験後に観測された結果から計算した検出力（事後検出力）」は、本質的に p 値を別の数字に変換したに過ぎず、新しい情報をもたらしません。「p値は何を測っていて、何を測っていないか」の単元でも触れた通り、この使い方は誤りです。

検出力を視覚的に理解する

検出力が何を意味するかを、2つの分布を重ねて考えると分かりやすくなります。

帰無仮説（ $H_0$ ）が正しいときの検定統計量の分布と、対立仮説（ $H_1$ ）が正しいときの分布を横に並べて描きます。

帰無分布（ $H_0$ のもと）：中心は 0
対立分布（ $H_1$ のもと）：中心は真の効果の大きさ分だけずれた位置

両側検定の場合、棄却域は帰無分布の両裾（各 $\alpha/2$ ）に置かれます。ここでは説明を簡潔にするため、効果がプラス方向の場合を想定し、右裾の棄却域に注目します。このとき、対立分布のうち棄却域に入る面積が検出力です。

面積	意味	記号
帰無分布の棄却域	（H₀が正しいとき）誤って棄却する確率	α
対立分布のうち棄却域に入る部分	（H₁が正しいとき）正しく棄却できる確率	1 − β（検出力）
対立分布のうち棄却域に入らない部分	（H₁が正しいとき）見逃してしまう確率	β

2つの分布の重なりが小さいほど、棄却域と対立分布の位置が離れるため、検出力は高くなります。

検出力に影響する4つの要因

検出力を高める（= 2つの分布の重なりを減らす）ためには、何を変えればよいのでしょうか。影響する要因は4つあります。

1. サンプルサイズ（ $n$ ）

$n$ を増やすと、標本平均のばらつき（標準誤差 $= \sigma / \sqrt{n}$ ）が小さくなります。すると、帰無分布も対立分布も両方が「細く」なり、重なりが減ります。

$n$ を増やす → 検出力が上がる

これが最も直接的に検出力を制御できる要因です。

2. 効果量（ $\delta$ ）

効果量は、検出したい差の大きさです。母平均の差の検定では $\delta = \mu_1 - \mu_0$ や、標準化した差（Cohen's $d = \delta / \sigma$ ）で表します。

効果量が大きいほど、2つの分布の中心が離れ、重なりが小さくなります。

効果量が大きい → 検出力が上がる

ただし、効果量は研究者が「勝手に大きくする」ものではありません。「どの程度の差が臨床的・実用的に意味があるか」を事前に決めて、その値を使います。

3. 有意水準（ $\alpha$ ）

$\alpha$ を大きく設定すると（例：0.01 → 0.05 → 0.10）、棄却域が広がります。すると、対立分布のうち棄却域に入る割合が増え、検出力が上がります。

$\alpha$ を大きくする → 検出力が上がる（ただし第1種の過誤も増える）

$\alpha$ と $\beta$ はトレードオフの関係にあります。第1種の過誤を厳しく制御するために $\alpha$ を小さくすると、検出力が下がります。

4. データのばらつき（ $\sigma$ ）

母集団のばらつきが大きいほど、標準誤差が大きくなり、2つの分布の重なりが増えます。

$\sigma$ が小さい → 検出力が上がる

$\sigma$ は通常、研究者が直接制御できない値です。ただし、測定方法を改善したり、ノイズの多い被験者を除いた均一な母集団を対象にすることで、実質的に $\sigma$ を下げる設計が可能です。

必要サンプルサイズの計算

検出力を目標値（例：0.80）に設定したとき、何人のサンプルが必要かを事前に求めることができます。

母平均の検定（1標本、両側）での公式

帰無仮説 $H_0: \mu = \mu_0$ を有意水準 $\alpha$ （両側）、検出力 $1 - \beta$ で検定するとき、必要なサンプルサイズ $n$ は次の式で求まります。

n \geq \left( \frac{z_{\alpha/2} + z_{\beta}}{\delta / \sigma} \right)^2

$z_{\alpha/2}$ ：有意水準 $\alpha$ （両側）に対応する標準正規分布の上側 $\alpha/2$ 点
$z_{\beta}$ ：第2種の過誤確率 $\beta$ に対応する標準正規分布の上側 $\beta$ 点
$\delta = |\mu_1 - \mu_0|$ ：検出したい効果の大きさ（母平均の差）
$\sigma$ ：母標準偏差（既知、または過去の研究から推定）

よく使う臨界値：

設定値	対応する z 値
α = 0.05（両側）→ z_	1.96
1 − β = 0.80 → z_β	0.842
1 − β = 0.90 → z_β	1.282
1 − β = 0.95 → z_β	1.645

例：鎮痛薬の臨床試験

先ほどの鎮痛薬の試験に戻ります。設計条件を次のように決めたとします。

検出したい効果：痛みスコアが平均 $\delta = 10$ 点改善
過去のデータから、痛みスコアの標準偏差は $\sigma = 15$
有意水準： $\alpha = 0.05$ （両側）
目標検出力： $1 - \beta = 0.80$

必要サンプルサイズを計算します。

n \geq \left( \frac{1.96 + 0.842}{10 / 15} \right)^2 = \left( 2.802 \times \frac{15}{10} \right)^2 = (2.802 \times 1.5)^2 = (4.203)^2 \approx 17.67

小数点以下を切り上げて、 $n = 18$ 人必要です。

最初の試験では n = 10 でした。必要なサンプルサイズの半分強しかなかったため、効果があっても見つけられなかった可能性が高かったのです。

補足

この公式は母分散が既知の場合の近似式です。実際には母分散が未知であるため、t分布を使ったより正確な計算が必要になりますが（反復計算が必要）、設計段階の目安としてはこの正規近似が広く使われています。

検出力曲線の読み方

$n$ を1つに固定せず、 $n$ を横軸にして検出力を縦軸にプロットしたグラフが**検出力曲線（**Power Curve）です。

効果量が大きいほど、同じ $n$ でも検出力が高くなるため、曲線は上にシフトします。

検出力曲線から読み取れること：

「検出力 0.80 を達成するために最低限必要な $n$ 」（曲線と横点線の交点）
「現在の設計（ $n = 10$ 、 $\delta = 10$ ）の検出力」（曲線上の1点）
「効果量を変えたときの影響」（別の曲線との比較）

先ほどの1標本の設定（ $\delta = 10$ 、 $\sigma = 15$ 、 $\alpha = 0.05$ 両側）で $n = 10$ とすると、検出力は約 0.47（47%）です。つまり、薬が本当に効くとしても、この設計では約半分の確率でしか検出できません。有意差が出なかった理由が「設計の問題」である可能性が高いことが分かります。

2標本の場合

2標本の平均差の検定（各群 $n$ 人、等標本）では、必要サンプルサイズの公式が次のようになります。

n \geq 2 \left( \frac{z_{\alpha/2} + z_{\beta}}{\delta / \sigma} \right)^2

1標本の公式に係数 2 がついた形です。これは、独立した2つの群の平均の差を検定するとき、各群の分散が足し合わされて（ $\sigma^2/n + \sigma^2/n = 2\sigma^2/n$ ）、1標本のときと同じ標準誤差を保つには各群の $n$ を2倍にする必要があるためです。各群 $n$ 人、合計 $2n$ 人が必要になります。

ポイント

研究によってはバランスの取れない設計（各群のサンプルサイズが異なる）を使う場合もあります。コスト制約や倫理的配慮（治療群を最小化するなど）が理由になることがあり、その場合は別の公式を用います。基本は等分配から考え始めることが推奨されます。

よくある誤解

注意

誤解1：有意差が出なかったので、検出力を計算して「やっぱり差はなかった」と補強する — 実験後に計算した事後検出力は p 値を別の単位に変換したものに過ぎず、「差がない」という証拠にはなりません。検出力は実験の前に設計目的で計算します。
誤解2：サンプルサイズは大きければ大きいほどよい — n が大きすぎると、実用的意味のない微小な差までが有意になります。必要なサンプルサイズを見積もり、目的に見合った規模の研究を設計することが重要です。
誤解3：検出力 0.80 は絶対的な基準 — 0.80 は慣習的な目安であり、分野や文脈によって異なります。医薬品の規制承認試験では 0.90 以上が要求されることも多く、予備的研究では 0.70 を使うこともあります。
誤解4：効果量は大きく設定するほど節約できる — 効果量を大きく設定すれば必要 n は減りますが、実際の効果がそれより小さければ検出できません。効果量は「実用的に意味のある最小の差」を根拠に設定する必要があります。

まとめ

検出力（ $1 - \beta$ ）は、真の効果があるときに正しく検出できる確率です。有意差が出なかったとき、それが「差がない」のか「検出力が不十分だった」のかを区別するために不可欠な概念です。

検出力を高める要因は4つあります。サンプルサイズ（ $n$ を増やす）、効果量（ $\delta$ が大きい）、有意水準（ $\alpha$ を大きくする、ただしトレードオフあり）、ばらつき（ $\sigma$ を小さくする）です。

実験を設計する前に、「どの程度の効果を検出したいか」を決め、目標検出力（通常 0.80）を達成する $n$ を逆算します。この手続きが、無駄なく信頼できる研究を作る出発点になります。