統計とシンプソンのパラドックス:データが誤解を招く方法
要約
この記事では、同じデータセットでもグループ化の仕方によって相反する傾向を示すことがあるシンプソンのパラドックスの概念について探求します。病院の生存率や死刑判決など、潜在的な変数が結果に大きな影響を与える例を提供します。また、統計が説明する実際の状況を注意深く研究することが、パラドックスに陥ることを避け、データ操作に対して脆弱にならないための重要性についても議論します。
目次
- 統計の問題点
- 病院の生存率と潜在的な変数
- 喫煙と年齢層:シンプソンのパラドックスの例
- 人種と死刑判決:シンプソンのパラドックスの別の例
- パラドックスを避ける方法
統計の問題点
統計は説得力があり、人々や組織、さらには国全体が重要な決定を組織化されたデータに基づいて行うことがあります。しかし、その中に何かが潜んでいることがあるため、問題があります。どんな統計データでも、結果を完全に逆転させる要因が潜んでいる可能性があります。
病院の生存率と潜在的な変数
例えば、高齢の親戚の手術のために2つの病院から選ぶ必要があるとしましょう。各病院の過去1,000人の患者のうち、病院Aでは900人が生存し、病院Bでは800人しか生存していません。したがって、病院Aがより良い選択肢であるように見えます。
しかし、決定をする前に、すべての患者が同じレベルの健康状態で病院に到着するわけではないことを覚えておいてください。そして、各病院の過去1,000人の患者を、健康な人と健康が悪い人に分けると、状況は非常に異なって見えてきます。病院Aには健康が悪いと診断された患者が100人しかおらず、そのうち30人が生き残りました。しかし、病院Bには40人おり、そのうち21人を救うことができました。したがって、病院Bは、病院に健康が悪い状態で到着した患者にとっては、52.5%の生存率でより良い選択肢です。
そして、もし親戚の健康状態が良好で病院に到着した場合はどうでしょうか?奇妙なことに、病院Bが依然として98%以上の生存率でより良い選択肢です。したがって、病院Bが2つのグループのそれぞれの患者に対してより良い生存率を持っているのに、病院Aがより良い全体的な生存率を持っているのはなぜでしょうか?
私たちが発見したのは、同じデータセットでもグループ化の仕方によって相反する傾向を示すことがあるシンプソンのパラドックスの例です。これは、集計されたデータが条件付き変数、つまり大きな影響を与える隠れた追加要因である潜在的な変数を隠しているときによく起こります。ここでは、隠された要因は、健康が良いか悪いかに到着する患者の相対比率です。
喫煙と年齢層:シンプソンのパラドックスの例
シンプソンのパラドックスは、架空のシナリオに限られるものではありません。それは時に重要な文脈で現れます。英国のある研究では、20年間の期間中、喫煙者の生存率が非喫煙者よりも高いという結果が示されました。つまり、参加者を年齢層で分けると、非喫煙者は平均してかなり年配であり、そのために一般的に長生きしているため、試験期間中に死亡する可能性が高くなっていました。ここでは、年齢層が潜在的な変数であり、データを正しく解釈するために重要です。
人種と死刑判決:シンプソンのパラドックスの別の例
別の例では、フロリダ州の死刑事件の分析では、殺人罪で有罪判決を受けた黒人と白人被告人の間に差別がないと見えました。しかし、被害者の人種で事件を分け