母集団と標本
「一部から全体を知る」ための標本の取り方とバイアスの正体
できるようになること
- 母集団と標本の関係、および代表性の意味を説明できる
- 主な標本抽出法(無作為・層別・系統・クラスター)の特徴を区別できる
- バイアスの種類と、標本誤差・非標本誤差の違いを説明できる
標本の取り方が結果を左右する
「選挙の予測が大きく外れた」というニュースを聞いたことがあるかもしれません。原因の一つは、標本の取り方にあります。
電話調査だけだと、固定電話を持たない層の意見が入りにくいことがあります。ネット調査だけだと、ネット利用が少ない層の意見が入りにくいことがあります。
標本に偏り(バイアス)があると、集める人数を増やしても推測が「偏ったまま」になりやすく、母集団の値からずれてしまいます。
この単元では、標本抽出の方法とバイアスについて詳しく学びます。また、人数で減る誤差(標本誤差)と、人数では減らない誤差(非標本誤差)も整理します。
母集団と標本(復習)
記述統計と推測統計の単元で学んだ基本を、簡単に復習します。
- 母集団(population):知りたい対象の全体(例:有権者全員、工場で作られた製品すべて)
- 標本(sample):母集団から取り出した一部(例:世論調査の回答者1000人、工場から抜き取った100個)
推測統計では、標本のデータから母集団の特徴(平均、割合など)を推測します。
良い標本の条件
標本から母集団を推測するには、特定の層だけが過剰/過小に含まれないように設計されている必要があります(この「偏りの小ささ」を代表性と呼びます)。
- 代表性がある標本:母集団の特徴を偏りなく反映している(例:年齢・性別・地域などの構成が母集団と似ている)
- 代表性がない標本:特定の層に偏っている(例:電話調査で若者が少ない、ネット調査で高齢者が少ない)
代表性を確保するための方法が、標本抽出法です。
標本抽出の方法
1. 単純無作為抽出(Simple Random Sampling)
母集団からランダム(無作為)に標本を選ぶ、最も基本的な方法です。
- 方法:すべての個体に番号を振り、乱数などで選ぶ。
- メリット:論理的に分かりやすく、バイアスが入りにくい。
- デメリット:母集団の完全なリストが必要。少数派グループが十分に含まれないことがある。
2. 層別抽出(Stratified Sampling)
母集団をいくつかの層(グループ)に分けてから、各層からランダムに抽出する方法です。
- 方法:母集団を層(年代、地域など)に分け、各層から比例的または均等に抽出。
- メリット:少数派のグループも確実に含められ、層ごとの分析も可能。
- デメリット:層に関する事前の情報が必要。
3. 系統抽出(Systematic Sampling)
母集団のリストから、一定間隔で抽出する方法です。
- 方法:最初の1人をランダムに選び、その後は一定の間隔(人おき)で選ぶ。
- メリット:実施が容易。リストに周期的な偏りがなければ無作為抽出に近い精度。
- デメリット:リスト自体に周期性(例:名簿が男女交互など)があると結果が偏る。
4. クラスター抽出(Cluster Sampling)
母集団をクラスター(集団)に分けて、いくつかのクラスター全体を抽出する方法です。
- 方法:母集団をクラスター(学校、地域など)に分け、クラスターをランダム選抜してその全員を調査。
- メリット:調査コストを大幅に抑えられる。母集団全体のリストが不要。
- デメリット:同じクラスター内の個体は性質が似ていることが多く、精度が下がりやすい。
標本サイズの考え方
「何人調査すればいいか?」という問いは、実務で必ず直面します。
標本サイズと誤差の関係
無作為抽出において、標本サイズ()が大きいほど推測の誤差は小さくなります。誤差の大きさは標本サイズの平方根に反比例します。
- 100人 → 1000人(10倍):誤差は約 になる()
- 誤差を半分にするには:標本サイズを 4倍 にする必要がある
標本サイズより標本の取り方が重要です 10万人の偏った標本より、精度高く設計された1000人のランダムな標本の方が、母集団を正しく反映します。
バイアスの種類
標本が母集団を代表していない状態をバイアス(偏り)といいます。
1. 選択バイアス
調査の「入り口」で特定の層が除外されたり、特定の層が入りやすくなったりする偏りです。
- 例:街頭インタビュー(平日の昼間に外出している人に偏る)、ネット調査(高齢者が少ない)
2. 無回答バイアス
調査対象に選ばれたものの、回答しなかった人々が特定の傾向を持っている場合の偏りです。
- 例:多忙な現役世代が回答せず、時間に余裕のある層の意見ばかりが集まる。
3. 測定バイアス
質問の仕方や調査環境によって、回答が不自然に誘導される偏りです。
- 例:「○○に賛成ですよね?」という誘導尋問、質問の順番による心理的な影響。
標本誤差と非標本誤差
推測の誤差には、大きく分けて2種類あります。
標本誤差
標本が母集団の一部であることから確率的に生じる、避けられない誤差です。標本サイズを増やすことで小さくできます。
非標本誤差
バイアスや測定ミス、入力ミスなど、設計や運用で避けられる(避けるべき)誤差です。
- 特徴:標本サイズを大きくしても減りません。むしろ、偏った大規模調査は誤った確信を生むため危険です。
実務での注意点
- 調査設計を報告する:母集団の定義、抽出方法、回答率などを明記し、透明性を確保します。
- バイアスの可能性を認識する:完璧な調査はないことを前提に、「どんな偏りがあり得るか」を考慮して結果を解釈します。
- 報告での説明
「ネット調査(回答率25%)の結果、賛成が多数でした。ただし、デジタルデバイス利用者に限定された調査であるため、高齢層の意向は別途慎重に解釈する必要があります。」
まとめ
標本から母集団を推測するには、適切な抽出法(無作為、層別、系統、クラスター)選びが欠かせません。
標本サイズを増やすことは「標本誤差」を減らすには有効ですが、不適切な設計による「非標本誤差(バイアス)」は人数を増やしても解消されません 。機械的に人数を追うのではなく、根拠を持って「どう取るか」を判断することが、信頼できる分析の第一歩です。