データソースと公的統計

分析に使えるデータの入手先（e-Stat、各種白書など）と、公的統計の読み方・活かし方を学びます。信頼性の高いデータ源を活用する基礎です。

難易度 Lv 2 / 10想定時間：約15分

統計の手法をいくら学んでも、分析対象のデータがなければ何も始まりません。

しかし現実には、「どこにデータがあるのか」「そのデータは信頼できるのか」がわからないまま分析に手をつけてしまうケースが珍しくありません。

この単元では、データの入手先（データソース）の全体像と、日本の公的統計の基本的な仕組みを学びます。

データの入手方法は大きく2つに分かれます。

	1次データ（primary data）	2次データ（secondary data）
定義	分析者自身が目的に合わせて収集したデータ	他の主体がすでに収集・公開しているデータ
例	アンケート調査、実験データ、インタビュー	政府統計、企業の公開データ、論文のデータ
利点	目的に完全に合致した設計ができる	低コスト・短時間で入手できる
限界	コスト・時間がかかる、標本規模に制約がある	他者が別の目的で設計・収集したデータのため、自らの分析目的や変数の定義と合致しない場合がある

研究や業務の場面では、まず2次データで大まかな傾向をつかみ、足りない部分を1次データで補うという組み合わせが一般的です。

公的統計とは、国・地方自治体などの公的機関が作成する統計のことです。日本では統計法に基づいて体系的に整備されています。

公的統計は、その重要度によって2つに分類されます。

補足

基幹統計の名称を暗記する必要はありません。大切なのは「回答義務があるため回収率が高く、信頼性の高いデータが得られる」という特徴を理解することです。ただし、回答義務があっても未回答・記入ミスをゼロにすることはできないため、「義務がある＝完全なデータ」ではありません。

公的統計には、全数調査（悉皆調査）と標本調査の2種類があります。

	全数調査	標本調査
対象	母集団のすべてを調査	母集団から一部を抽出して調査
利点	標本誤差がない	コスト・時間を大幅に節約できる
限界	膘大なコスト、調査項目を増やしにくい	標本誤差が生じる、標本抽出の偏りと非回答バイアスが複合するリスク
例	国勢調査（5年ごと、全世帯対象）	家計調査（約9,000世帯）、労働力調査（約4万世帯）

全数調査は正確ですが費用と時間がかかるため、多くの公的統計は標本調査です。

全数・標本の区別が「誰を対象にするか」の話であるのに対し、横断・縦断は「いつのデータを取るか」という時間軸の話です。公的統計に限らず、1次データの設計でも意識すべき観点です。

注意

横断データで「年齢が高いほど貯蓄が多い」という結果が出ても、これだけでは「年を取ると貯蓄が増える」とは言えません。世代（コホート）の違いが反映されている可能性があります。因果の推測には縦断調査が適しています。

日本の公的統計は、以下のサービスから無料で入手できます。

e-Stat（https://www.e-stat.go.jp/）— 政府統計の総合窓口。ほぼすべての公的統計がここで検索・ダウンロードできる。APIも提供されており、プログラムから直接データを取得することも可能
RESAS（https://resas.go.jp/）— 地域経済分析システム。地域間比較の可視化ツール
総務省統計局（https://www.stat.go.jp/）— 統計に関する解説やデータの公開

2次データを使う際は、利用前に以下のポイントを必ず確認してください。

注意

誤解1：ネットで見つけたデータはすべて信頼できる — 出所や調査方法が不明なデータは信頼性を判断できません。公的統計などの信頼できるデータソースを優先してください。
誤解2：公的統計は完璧である — 公的統計にも標本誤差、非回答バイアス、定義変更による時系列の不連続などの限界があります。調査の概要（メタデータ）を確認する習慣が大切です。

1次データは分析目的に完全に合致させられますが、コストがかかります。2次データは低コストで入手でき、特に公的統計は信頼性が高い重要なデータソースです。

公的統計には基幹統計（回答義務あり・高信頼性）と一般統計があり、全数調査と標本調査、横断調査と縦断調査といった分類を理解することで、データの特性と限界を見極められるようになります。

どのデータも完璧ではありません。出所・調査方法・定義・時期・回収率を確認し、限界を理解した上で使うことが、正しい分析の第一歩です。