母集団と標本

母集団と標本の違いを理解し、「一部から全体を知る」ための標本の取り方を学びます。選択バイアスの正体と、推測統計の出発点を扱います。

難易度 Lv 2 / 10想定時間：約20分

できるようになること

母集団と標本の関係、および代表性の意味を説明できる
主な標本抽出法（無作為・層別・系統・クラスター）の特徴を区別できる
バイアスの種類と、標本誤差・非標本誤差の違いを説明できる

標本の取り方が結果を左右する

「選挙の予測が大きく外れた」というニュースを聞いたことがあるかもしれません。原因の一つは、標本の取り方にあります。

電話調査だけだと、固定電話を持たない層の意見が入りにくいことがあります。ネット調査だけだと、ネット利用が少ない層の意見が入りにくいことがあります。

標本に偏り（バイアス）があると、集める人数を増やしても推測が「偏ったまま」になりやすく、母集団の値からずれてしまいます。

この単元では、標本抽出の方法とバイアスについて詳しく学びます。また、人数で減る誤差（標本誤差）と、人数では減らない誤差（非標本誤差）も整理します。

母集団と標本（復習）

記述統計と推測統計の単元で学んだ基本を、簡単に復習します。

**母集団（**population）：知りたい対象の全体（例：有権者全員、工場で作られた製品すべて）
**標本（**sample）：母集団から取り出した一部（例：世論調査の回答者1000人、工場から抜き取った100個）

推測統計では、標本のデータから母集団の特徴（平均、割合など）を推測します。

良い標本の条件

標本から母集団を推測するには、特定の層だけが過剰/過小に含まれないように設計されている必要があります（この「偏りの小ささ」を代表性と呼びます）。

代表性がある標本：母集団の特徴を偏りなく反映している（例：年齢・性別・地域などの構成が母集団と似ている）
代表性がない標本：特定の層に偏っている（例：電話調査で若者が少ない、ネット調査で高齢者が少ない）

代表性を確保するための方法が、標本抽出法です。

標本抽出の方法

1. 単純無作為抽出（Simple Random Sampling）

母集団からランダム（無作為）に標本を選ぶ、最も基本的な方法です。

方法：すべての個体に番号を振り、乱数などで選ぶ。
メリット：論理的に分かりやすく、バイアスが入りにくい。
デメリット：母集団の完全なリストが必要。少数派グループが十分に含まれないことがある。

2. 層別抽出（Stratified Sampling）

母集団をいくつかの層（グループ）に分けてから、各層からランダムに抽出する方法です。

方法：母集団を層（年代、地域など）に分け、各層から比例的または均等に抽出。
メリット：少数派のグループも確実に含められ、層ごとの分析も可能。
デメリット：層に関する事前の情報が必要。

3. 系統抽出（Systematic Sampling）

母集団のリストから、一定間隔で抽出する方法です。

方法：最初の1人をランダムに選び、その後は一定の間隔（ $k$ 人おき）で選ぶ。
メリット：実施が容易。リストに周期的な偏りがなければ無作為抽出に近い精度。
デメリット：リスト自体に周期性（例：名簿が男女交互など）があると結果が偏る。

4. クラスター抽出（Cluster Sampling）

母集団をクラスター（集団）に分けて、いくつかのクラスター全体を抽出する方法です。

方法：母集団をクラスター（学校、地域など）に分け、クラスターをランダム選抜してその全員を調査。
メリット：調査コストを大幅に抑えられる。母集団全体のリストが不要。
デメリット：同じクラスター内の個体は性質が似ていることが多く、精度が下がりやすい。

標本サイズの考え方

「何人調査すればいいか？」は実務でも重要な問いです。

標本サイズと誤差の関係

無作為抽出において、標本サイズ（ $n$ ）が大きいほど推測の誤差は小さくなります。誤差の大きさは標本サイズの平方根に反比例します。

$\text{標準誤差} \propto \frac{1}{\sqrt{n}}$

100人 → 1000人（10倍）：誤差は約 $\frac{1}{3}$ になる（ $1/\sqrt{10} \approx 0.32$ ）
誤差を半分にするには：標本サイズを 4倍にする必要がある

ポイント

標本サイズより標本の取り方が重要です 10万人の偏った標本より、精度高く設計された1000人のランダムな標本の方が、母集団を正しく反映します。

バイアスの種類

標本が母集団を代表していない状態を**バイアス（**偏り）といいます。

1. 選択バイアス

調査の「入り口」で特定の層が除外されたり、特定の層が入りやすくなったりする偏りです。

例：街頭インタビュー（平日の昼間に外出している人に偏る）、ネット調査（高齢者が少ない）

2. 無回答バイアス

調査対象に選ばれたものの、回答しなかった人々が特定の傾向を持っている場合の偏りです。

例：多忙な現役世代が回答せず、時間に余裕のある層の意見ばかりが集まる。

3. 測定バイアス

質問の仕方や調査環境によって、回答が不自然に誘導される偏りです。

例：「○○に賛成ですよね？」という誘導尋問、質問の順番による心理的な影響。

標本誤差と非標本誤差

推測の誤差には、大きく分けて2種類あります。

標本誤差

標本が母集団の一部であることから確率的に生じる、避けられない誤差です。標本サイズを増やすことで小さくできます。

非標本誤差

バイアスや測定ミス、入力ミスなど、設計や運用で避けられる（避けるべき）誤差です。

特徴：標本サイズを大きくしても減りません。むしろ、偏った大規模調査は誤った確信を生むため危険です。

実務での注意点

調査設計を報告する：母集団の定義、抽出方法、回答率などを明記し、透明性を確保します。
バイアスの可能性を認識する：完璧な調査はないことを前提に、「どんな偏りがあり得るか」を考慮して結果を解釈します。
報告での説明

ポイント

「ネット調査（回答率25%）の結果、賛成が多数でした。ただし、デジタルデバイス利用者に限定された調査であるため、高齢層の意向は別途慎重に解釈する必要があります。」

まとめ

標本から母集団を推測するには、適切な抽出法（無作為、層別、系統、クラスター）選びが欠かせません。

標本サイズを増やすことは「標本誤差」を減らすには有効ですが、不適切な設計による「非標本誤差（バイアス）」は人数を増やしても解消されません 。機械的に人数を追うのではなく、根拠を持って「どう取るか」を判断することが、信頼できる分析の第一歩です。