外れ値と歪み
「変な値」を見つけたとき、データとどう向き合うべきか
できるようになること
- 外れ値の検出基準(箱ひげ図・標準偏差)を使い分けられる
- 外れ値の原因を分類し、適切な対応を選べる
- 外れ値と分布の歪みの関係を説明できる
「変な点」をどうするか
データの中に「120点」が含まれていました。100点満点のテストなのに、なぜ120点?
箱ひげ図で「外れ値」と検出されました。では、この点はどうすべきでしょうか。削除?修正?そのまま?
外れ値が見つかったとき、機械的に削除してはいけません 。まず原因を考え、適切な対応を選ぶ必要があります。
外れ値とは何か
外れ値(outlier)は、ある基準で見たときに他のデータから大きく離れた値です。外れ値かどうかは、分析目的と採用する基準によって変わります。
外れ値の検出方法はいくつかありますが、代表的なものは:
1. 箱ひげ図の基準:
- 未満、または 超
- ここで です。
2. 標準偏差の基準:
- の範囲外
標準偏差の基準は、データが正規分布(左右対称な釣鐘型の分布)に近い場合に有効です。歪んだ分布では過剰に検出されることがあります。また、極端な外れ値があると平均と標準偏差自体が変動してしまうため、注意が必要です。
3. 視覚的な判断:
- ヒストグラムや散布図で「明らかに離れている」点
視覚的な判断は、基準(箱ひげ図・標準偏差など)と併用して、候補を見つける用途で使います。どの基準を使うかは、データの性質や分析の目的によります。
外れ値の原因を分類する
外れ値が見つかったら、なぜその値になったかを考えます。原因によって、取るべき対応が変わります。
1. データ入力のミス
- **年齢に「250」**と入力(桁を間違えた)
- 体重に「650kg」(単位を間違えた、本当は65.0kg)
- テストに「120点」(100点満点なのに)
- 特徴:明らかに現実的でない値
2. 測定・記録の失敗
- センサーの誤作動
- 記録時の読み取りミス
- データ転送時のエラー
- 特徴:測定プロセスに問題があった
3. 本当の極端値
- 年収データに1億円(実在する高所得者)
- テストで満点(本当に優秀な学生)
- 売上データに通常の10倍(大口契約があった)
- 特徴:珍しいが、実際に起こりうる
4. 異なる母集団
- 一般社員の年収データに、誤って社長の年収が混入
- 高校生のテストデータに、誤って大学生のデータが混入
- 特徴:分析対象ではない集団のデータ
外れ値への対応
原因が分かったら、適切な対応を選びます。
対応1:削除
- いつ使うか:明らかな入力ミス、測定失敗、異なる母集団のデータ
- 注意点:なぜ削除したかを記録し、報告する。安易に削除せず、判断が難しい場合は別の対応を検討する。
- 例:「120点」が100点満点のテストなら削除
対応2:修正
- いつ使うか:正しい値が推測できる場合や、元データが確認できる場合
- 注意点:推測による修正は慎重に行い、根拠を記録する。
- 例:「650kg」→「65.0kg」(明らかに単位ミス)
対応3:そのまま残す
- いつ使うか:本当の極端値であり、分析の目的が「全体像」の把握である場合
- 注意点:外れ値が平均・分散に大きく影響することを認識し、中央値などの外れ値に強い指標を併用する。
- 例:年収1億円は削除せず、「高所得者を含む」と明記
対応4:変換
- いつ使うか:外れ値が多く分布が大きく歪んでいる場合や、分析手法が正規分布を仮定している場合
- 方法:
- 対数変換:( が前提)
- 平方根変換:( が前提)
- 効果:対数変換は、大きい値ほどその間隔を強く圧縮するため、右に長く伸びた分布の裾を縮め、対称な形状に近づける効果があります。
- 例:年収データを対数変換して分析する
外れ値と歪みの関係
外れ値と分布の歪み(歪度、skewness)は密接に関係しています。
外れ値が要約統計量を動かす: 少数の極端な値が、平均などの値を大きく動かし、分布が「右に長い」ように見えることがあります。 例:ほとんどが200-300万円の年収データに、1億円が1人いると、平均が大きく引き上げられます。
歪んだ分布では外れ値が出やすい: 右に歪んだ分布(年収、資産など)では、箱ひげ図の基準などで高い側が外れ値として検出されやすいことがあります。これは「異常」ではなく分布の性質です。このような場合、安易な削除より、対数変換などで分布を対称に近づける方が適切なことが多いです。
報告での説明
分析結果を報告するとき、外れ値への対応を明記します。
良い例: 「年収データ1000件のうち、3件が箱ひげ図の基準で外れ値として検出されました。これらは実在する高所得者のデータであり、削除せずに分析に含めました。ただし、平均は外れ値の影響を受けやすいため、中央値を代表値として使用しました。」
説明がないと、自分に都合よくデータを操作したと疑われるリスクがあります。
よくある誤解
- 誤解1:外れ値は必ず削除すべき — 「本当の極端値」を削除すると、実態を歪めることになります。
- 誤解2:外れ値の基準を満たせば自動的に削除 — 基準は「検出」の目安であって、「削除」の基準ではありません。
- 誤解3:外れ値がなければ良いデータ — 分布の性質上、外れ値が出るのが自然な場合もあります。
まとめ
外れ値は、他のデータから大きく離れた値であり、原因(ミス、失敗、極端値、母集団の違い)を考えることが先決です。
対応は「削除・修正・そのまま・変換」の4つから、原因と分析目的に応じて選びます。どんな対応を選んでも、その理由を明記して説明できることが分析の信頼性に繋がります。