統計は誤解を招くことがある:シンプソンのパラドックスを理解する
要約
本記事では、統計の集合がグループ化の方法によっては、逆の傾向を示すことがあるシンプソンのパラドックスについて説明します。現実の例を挙げ、このパラドックスがデータの誤解釈につながることを示します。また、潜在変数を考慮することが重要であることを強調し、パラドックスに陥ることを避け、操作されることに対する脆弱性を回避することを目的とします。
目次
- 統計の問題点
- 病院の例
- 現実のシンプソンのパラドックス
- 潜在変数の重要性
- 結論
統計の問題点
統計は、人々、組織、さらには国々が重要な決定をするために使用する強力なツールです。しかし、適切に分析されなければ、統計は誤解を招くことがあります。統計の最大の問題の1つであるシンプソンのパラドックスでは、同じデータセットがグループ化の方法によっては逆の傾向を示すことがあります。
病院の例
シンプソンのパラドックスを説明するために、高齢の親戚の手術のために2つの病院から選ぶ場合を考えてみましょう。病院Aは1,000人中900人が生存し、病院Bは1,000人中800人が生存しました。最初に見ると、病院Aの方が良い選択肢のように思えます。しかし、患者を健康状態で分けると、状況が変わります。
病院Aには健康状態が悪い100人の患者がおり、そのうち30人が生存しました。対照的に、病院Bには健康状態が悪い40人の患者がおり、そのうち21人が生存しました。したがって、健康状態が悪い患者にとっては、生存率が52.5%の病院Bがより良い選択肢です。親戚の健康が良好な場合でも、病院Bは98%以上の生存率でより良い選択肢です。
では、2つのグループの患者において病院Bの方が生存率が高いのに、なぜ病院Aの全体的な生存率が良いのでしょうか?答えは、健康状態が良いか悪いかに応じた患者の相対比率にあります。
現実のシンプソンのパラドックス
シンプソンのパラドックスは、架空のシナリオに限られません。時々、重要な文脈で現れます。たとえば、英国のある研究では、20年間の期間中、喫煙者の生存率が非喫煙者よりも高いように見えました。しかし、参加者を年齢グループに分けると、非喫煙者は平均してかなり年配であり、一般的に長生きしていたため、試験期間中に死亡する可能性が高かったのです。ここでは、年齢グループが潜在変数であり、データを正しく解釈するために重要です。
別の例では、フロリダの死刑判決の分析は、殺人罪で有罪判決を受けた黒人と白人被告人の間に人種的な不平等がないように見えました。しかし、被害者の人種で事件を分けると、話は変わります。黒人被告人は死刑判決を受ける可能性が高く、白人被告人よりもわずかに高い全体的な判決率は、被害者が白人である場合に死刑判決が下される可能性が高いためであり、殺人事件は大部分が同じ人種の間で発生するためです。
潜在変数の重要性
シンプソンのパラドックスに陥ることを避けるためには、潜在変数を考慮することが重要です。これらは、結果に重大な影響を与える隠れた追加要因です。データは任意の方法でグループ化および分割でき、全体的な数値が誤解を招くまたは任意のカテゴリに分割されたデータよりも正確な画像を提供することがあります。したがって、私たちは統計が説明する実際の状況を注意深く研究し、潜在変数が存在する可能性があるかどうかを考慮する必要があります。
結論
統計は説得力を持ちますが、誤解を招くこともあります。シンプソンのパラドックスは、さまざまな文脈で起こる現実の問題であり、データの誤解釈につながります。このパラドックスに陥ることを避けるためには、潜在変数を考慮し、データを注意深く分析する必要があります。そうしないと、操作されることに対する脆弱性が残り、他者のアジェンダを推進することになります。