1973年秋、カリフォルニア大学バークレー校が大学院入学統計を公表し、即座に大きな波紋を呼んだ。男性志願者の合格率は44%であるのに対し、女性志願者はわずか35%だった。これは性差別の動かぬ証拠なのか?研究者が学部別にデータを精査したところ、驚くべき事実が判明した——ほとんどの学部で、女性の合格率の方が高かったのだ。これこそ、統計学において最も困惑させられる、しかし最も重要な現象の一つ、シンプソンのパラドックスである。
1. シンプソンのパラドックスとは何か?
パラドックスの定義
シンプソンのパラドックスとは、グループごとに観察されるデータの傾向が、データを統合すると消失したり、あるいは逆転したりする統計的現象である。[1]つまり、データを別々のグループで検討すればある結論に至るのに、データを統合して見ると正反対の結論に至るのである。
これは数学的な誤りでも統計的な誤謬でもない——集約されたデータの中に潜む危険な落とし穴を明らかにする、真正な数学的現象である。
数学的説明:加重平均の罠
シンプソンのパラドックスの核心には、加重平均の反直感的な性質がある。これを数学的に説明しよう。
2つのグループAとBの成功率を、2つのサブカテゴリー1と2にわたって比較するとする:
- グループAのカテゴリー1での成功率:pA1、サンプル数 nA1
- グループAのカテゴリー2での成功率:pA2、サンプル数 nA2
- グループBのカテゴリー1での成功率:pB1、サンプル数 nB1
- グループBのカテゴリー2での成功率:pB2、サンプル数 nB2
たとえ pA1 > pB1 かつ pA2 > pB2(Aが両カテゴリーでBを上回っている)であっても、全体の成功率を統合すると以下のようになる可能性がある:
PA = (nA1 · pA1 + nA2 · pA2) / (nA1 + nA2) < PB = (nB1 · pB1 + nB2 · pB2) / (nB1 + nB2)
鍵はサンプル分布の非対称性にある。Aのサンプルの大部分が成功率の低いカテゴリーに集中し、Bのサンプルが成功率の高いカテゴリーに集中している場合、Aが各カテゴリーでBを上回っていても、全体の加重結果ではBが有利になる可能性があるのだ。[2]
2. 古典的な事例
事例1:UCバークレー1973年入学差別論争
これはシンプソンのパラドックスの最も有名な事例であり、統計学の教科書に欠かせないケースである。[3]
表面的なデータ:性差別の「動かぬ証拠」
| 性別 | 志願者数 | 合格者数 | 合格率 |
|---|---|---|---|
| 男性 | 8,442 | 3,738 | 44% |
| 女性 | 4,321 | 1,512 | 35% |
確かに深刻な性差別が存在するように見える——男性の合格率は女性を9ポイントも上回っていた!
詳細な分析:真実の姿
しかし、統計学者のピーター・ビッケル、ユージーン・ハメル、J・ウィリアム・オコネルが学部別にデータを検証すると、まったく異なる姿が浮かび上がった。以下は2つの学部の簡略化されたデータである:
| 学部 | 性別 | 志願者数 | 合格者数 | 合格率 |
|---|---|---|---|---|
| 工学部 | 男性 | 825 | 511 | 62% |
| 女性 | 108 | 89 | 82% | |
| 文学部 | 男性 | 373 | 22 | 6% |
| 女性 | 341 | 24 | 7% |
工学部では、女性の合格率(82%)が男性(62%)をはるかに上回っていた!文学部でも、女性の合格率(7%)が男性(6%)をわずかに上回っていた。実際に85の学部の大多数において、女性の合格率は男性と同等かそれ以上だったのだ。
パラドックスの原因
では、なぜ全体のデータは男性の合格率が高いことを示していたのか?答えは出願先の分布の違いにある:
- 女性は合格率の低い競争の激しい学部(人文科学や社会科学など)に出願する傾向があった
- 男性は合格率の高い学部(工学や自然科学など)に出願する傾向があった
入学差別ではなく、この出願パターンの違いこそが、全体の合格率の差の主要因だったのだ。[4]
🎮 体験しよう:シンプソンのパラドックス・シミュレーター
以下のパラメータを調整して、シンプソンのパラドックスがどのように発生するかを体験してください。デフォルト値はUCバークレーのシナリオを模擬しています。
📚 学部A(工学部)
📖 学部B(文系学部)
📊 結果
学部A
学部B
🏫 全体の合格率
女性は両学部で合格率が高いにもかかわらず、全体の合格率は低くなっています!
グループレベルの傾向が全体の傾向と一致しています。パラメータを調整してパラドックスを作ってみましょう!
💡 なぜこうなるのか?
事例2:レブロン・ジェームズ vs. カール・マローン
バスケットボールの統計は、シンプソンのパラドックスのもう一つの優れた実例を提供する。2人のNBAレジェンドのシュート率を比較してみよう。
カテゴリー別データ
| 選手 | 2ポイントFG% | 3ポイントFG% |
|---|---|---|
| レブロン・ジェームズ | 54.7% | 34.6% |
| カール・マローン | 52.3% | 27.4% |
2ポイントシュートでも3ポイントシュートでも、レブロンのシュート率はマローンを上回っている。直感的に、レブロンの総合シュート率が高いはずだと思うだろう。
全体データでの逆転
しかし、総合フィールドゴール率を計算すると:
- レブロン・ジェームズ:約50.4%
- カール・マローン:約51.6%
マローンの方が総合率は高いのだ!
原因の分析
鍵はシュート構成にある:
- レブロンの3ポイントシュート試投数は、マローンに比べて総シュート数に占める割合がはるかに大きい
- 3ポイントシュートは本来、2ポイントシュートよりも成功率が低い
- したがって、レブロンは両方のシュートタイプでより正確であっても、成功率の低い3ポイントシュートの多さが全体の数値を引き下げている
この事例は、単一の集約値が真実を深刻に歪める可能性があることを鮮明に示している。選手のパフォーマンスを評価する際には、シュート構成の違いを考慮に入れなければならない。
事例3:腎臓結石の治療
医学におけるシンプソンのパラドックスの事例は、患者の健康や生命に直接影響するため、特に懸念される。
1986年の古典的研究
チャリグらは1986年に、腎臓結石の2つの治療法を比較した研究を発表した:従来の開腹手術(治療A)と低侵襲の経皮的腎砕石術(治療B)。[5]
| 治療法 | 全体の成功率 |
|---|---|
| 開腹手術(A) | 78%(273/350) |
| 低侵襲手術(B) | 83%(289/350) |
表面上、低侵襲手術(B)の方が効果的に見えた。しかし、結石の大きさ別にデータを層別化すると:
| 結石の大きさ | 開腹手術(A) | 低侵襲手術(B) |
|---|---|---|
| 小結石(<2cm) | 93%(81/87) | 87%(234/270) |
| 大結石(≥2cm) | 73%(192/263) | 69%(55/80) |
結石の大きさにかかわらず、開腹手術の方が成功率が高かったのだ!パラドックスが生じたのは、医師が軽症例(小結石)を低侵襲手術に、重症例(大結石)を従来の開腹手術に割り当てる傾向があったからだ。この割り当てバイアスが全体データの逆転を引き起こしたのである。
3. その他の事例
野球の打率
野球の統計はシンプソンのパラドックスの温床である。最も有名な事例は、1995-1996年のデレク・ジーターとデヴィッド・ジャスティスの打率比較である。[6]
1995年も1996年も、各年ではジャスティスの打率がジーターを上回っていた。しかし、両年のデータを統合すると、ジーターの総合打率の方が実際には高かったのだ!その理由は、ジーターがより好成績を残した1996年に打席数がはるかに多く、ジャスティスの打席数は逆のパターンで分布していたからである。
COVID-19ワクチンの有効性データ
2021年、イスラエルのCOVID-19データがワクチン懐疑論者の疑問を呼んだ。特定の統計では、ワクチン接種者の死亡率が未接種者より高いように見えたのだ![7]
しかし、これはシンプソンのパラドックスの典型的な現れだった。イスラエルのワクチン接種率は非常に高く(特に高齢者で)、多くの高齢者がワクチン接種を受けていた。高齢者は本来ベースラインの死亡リスクが高いため、未調整のデータではワクチン接種者の死亡者が多いように見えたのだ。
年齢層別にデータを分析すると、真実が明らかになった:すべての年齢層において、ワクチン接種者の死亡率は未接種者より有意に低かった。
死刑判決と人種
1983年、ラデレットはフロリダ州の死刑判決データを研究し、不穏な人種間格差を発見した。[8]
集約データでは、白人被害者の殺人犯が黒人被害者の殺人犯よりも死刑を宣告される可能性が高いことが示された。これは被害者に対する人種的偏見を示唆しているように思われた。しかし、加害者の人種別にデータを層別化すると、白人と黒人の加害者はサブグループ間で異なる死刑率のパターンを示した。この事例の複雑さは、データの解釈にどの層別化を用いるかの決定自体が価値判断であるという点にある。
4. 歴史的起源
カール・ピアソン(1899年):最初の観察
シンプソンのパラドックスの歴史は「シンプソン」という名前よりも古い。
近代統計学の創始者の一人であるカール・ピアソン(1857-1936)は、1899年に遺伝と自然選択を研究していた際に同様の現象に気づいた。[9]データが異なるサブグループから来ている場合、統合後の相関がサブグループ内の相関と逆になりうることを発見したのだ。
アドニー・ユール(1903年):交絡効果
ジョージ・アドニー・ユール(1871-1951)は1903年にこの問題をより体系的に分析した。[10]「潜在変数」が存在する場合、2つの変数間の見かけ上の関連は疑似的なものになりうると指摘した。この概念は後に「ユール効果」あるいは「交絡」として知られるようになった。
エドワード・シンプソン(1951年):正式な命名
エドワード・H・シンプソン(1922-2019)はイギリスの統計学者で、1951年に発表した論文でこのパラドックスを正式に記述した。[11]
興味深いことに、シンプソン自身はパラドックスが自分の名前で呼ばれることに驚いた。インタビューで彼は謙虚にこう述べた:「私はすでに知られていたことを書き留めただけだ。」[12]しかし、彼の論文はこの現象を明確かつ簡潔な学術的形式で初めて提示したものであり、「シンプソンのパラドックス」という名称は徐々に定着した。
ジューディア・パール:因果革命
2011年のチューリング賞受賞者ジューディア・パール(1936-)は、シンプソンのパラドックスをまったく新しい哲学的レベルに引き上げた。[13]
パールは、シンプソンのパラドックスは単なる統計的問題ではなく、因果推論の問題であると主張した。「純粋に統計的な基準では、データをいつ集約し、いつ層別化すべきかを判断することはできない。その答えは因果構造の理解に依存する」と彼は述べた。
パールは因果ダイアグラムとdo演算を開発し、シンプソンのパラドックスを解決するための数学的フレームワークを提供した。彼の理論では、ある変数を制御すべきかどうかは、因果ネットワークにおけるその位置——交絡因子、媒介因子、合流点のいずれであるか——に依存する。[14]
5. なぜ起こるのか?
交絡変数
シンプソンのパラドックスの最も一般的な原因は、交絡変数の存在である。交絡変数とは、独立変数と従属変数の両方に同時に影響を与える第三の要因のことだ。
UCバークレーの事例を例にとると:
- 独立変数:志願者の性別
- 従属変数:合格結果
- 交絡変数:出願先の学部
性別が学部選択に影響を与え(女性は競争の激しい学部に出願する傾向があった)、学部が合格率に影響を与えたため、男女の全体合格率を単純に比較すると誤解を招く結果となったのだ。
基準率効果
もう一つの重要な要因は、グループ間のサンプルサイズの非対称性である。AがすべてのサブグループでBを上回っていても、Aのサンプルが「低基準率」グループに偏って集中し、Bのサンプルが「高基準率」グループに集中していれば、全体の加重結果ではBが優位に立つ可能性がある。
こう考えてみよう:ある学生が両方の小テストで90点を取り、もう一人は80点を取った。しかし、最初の学生の小テストが総合成績のわずか10%しか占めず、大テスト(60点だった)が90%を占める一方、2番目の学生の小テストが90%を占め、大テスト(70点だった)が10%しか占めないとすれば、2番目の学生の方が総合成績は高くなるのだ。
6. 騙されないために
1. 常にデータの背後にある構造を問え
統計データに直面した際、単に最終結果だけを見てはいけない。以下のことを問おう:
- このデータはどのように集約されたのか?
- 隠れたグルーピングはないか?
- グループ間のサンプルサイズは比較可能か?
2. 因果モデルを構築せよ
パールの推奨:データを分析する前に、因果関係がどうなっていると考えるかの図を描く。これにより、どの変数が交絡因子であるか、どれを制御すべきか、どれを制御すべきでないかを特定できる。
3. 層別分析
交絡変数の存在が疑われる場合、層別分析を行うのが標準的な手法である。ただし忘れてはならない:層別化の根拠は因果推論に基づくべきであり、単なる統計的便宜によるものであってはならない。
4. 集約データの政治的利用に警戒せよ
シンプソンのパラドックスは、政治家や利益団体が自分たちの立場を支持するためにしばしば利用される。このパラドックスを理解することは、そうした操作を見抜く助けとなる。[15]
7. データリテラシーの重要性
このデータ駆動の時代において、シンプソンのパラドックスの教訓はかつてないほど重要である。
個人への示唆
統計を引用してある主張を支持するニュース報道を目にするたびに、立ち止まって自分自身に問いかけよう:
- このデータはサブグループ別に分析されているか?
- 全体の傾向は幻想ではないか?
- 見落とされている交絡変数はないか?
専門家への示唆
データアナリスト、研究者、意思決定者にとって、シンプソンのパラドックスを理解することは基本的な能力である。研究結果を発表したり意思決定を行ったりする際には、以下を考慮しなければならない:
- 自分のデータ集約方法は適切か?
- 必要な層別分析を行ったか?
- 自分の結論は因果推論の観点からの精査に耐えるか?
社会への示唆
シンプソンのパラドックスは私たちに、データはそれ自体では語らない——データは正しく解釈されなければならないことを思い起こさせる。公共政策、医療上の意思決定、社会問題において、私たちは統計的数値を盲目的に信頼するのではなく、批判的なデータ思考を養わなければならない。
結論:データの前の謙虚さ
シンプソンのパラドックスは、単なる魅惑的な数学的現象以上のものである——それは人間の認知に対する警鐘なのだ。
それは、表面的なパターンは幻想かもしれないことを教えてくれる。データを集約する際、実際には存在しない傾向を作り出しているかもしれないのだ。
それは、統計は因果的思考の代わりにはならないことを思い起こさせる。データは「何であるか」を教えることはできても、「なぜそうなのか」は教えてくれない。因果関係の理解には、データそのものを超えた思考が必要である。
それは、データの前で謙虚であることを教えてくれる。最も精密な数値でさえ、不適切に集約されれば欺くことがある。統計的結論に対して、健全な懐疑心を持ち続けるべきである。
1899年のピアソンによる最初の観察から、1951年のシンプソンによる正式な記述、そしてパールの因果革命に至るまで——1世紀以上にわたるこの学術的旅路は、最終的に一つの深い洞察を指し示している:世界を理解するにはデータだけでなく、そのデータがどのように生成されたかについての因果的知識も必要なのだ。
次に驚くべき統計に出会った際には、UCバークレーの話、レブロンとマローンのシュート記録、そして腎臓結石患者の治療結果を思い出してほしい。そして自問しよう:このデータの背後にシンプソンのパラドックスが隠れていないだろうか?
参考文献
- Simpson, E. H. (1951). "The interpretation of interaction in contingency tables." Journal of the Royal Statistical Society, Series B, 13(2), 238-241.
- Pearl, J. (2014). "Comment: Understanding Simpson's Paradox." The American Statistician, 68(1), 8-13.
- Bickel, P. J., Hammel, E. A., & O'Connell, J. W. (1975). "Sex Bias in Graduate Admissions: Data from Berkeley." Science, 187(4175), 398-404.
- Freedman, D., Pisani, R., & Purves, R. (2007). Statistics (4th ed.). W. W. Norton & Company, Chapter 2.
- Charig, C. R., Webb, D. R., Payne, S. R., & Wickham, J. E. A. (1986). "Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy." British Medical Journal, 292(6524), 879-882.
- Samuels, M. L. (1993). "Simpson's Paradox and Related Phenomena." Journal of the American Statistical Association, 88(421), 81-88.
- Morris, J. A. (2021). "Simpson's Paradox and COVID-19 vaccine efficacy." The BMJ, 374:n1912.
- Radelet, M. L. (1981). "Racial Characteristics and the Imposition of the Death Penalty." American Sociological Review, 46(6), 918-927.
- Pearson, K., Lee, A., & Bramley-Moore, L. (1899). "Mathematical contributions to the theory of evolution. VI. Genetic (reproductive) selection." Philosophical Transactions of the Royal Society of London. Series A, 192, 257-330.
- Yule, G. U. (1903). "Notes on the theory of association of attributes in statistics." Biometrika, 2(2), 121-134.
- Simpson, E. H. (1951). "The interpretation of interaction in contingency tables." Journal of the Royal Statistical Society, Series B, 13(2), 238-241.
- Wagner, C. H. (1982). "Simpson's Paradox in Real Life." The American Statistician, 36(1), 46-48.
- Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.
- Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
- Hernán, M. A., Clayton, D., & Keiding, N. (2011). "The Simpson's paradox unraveled." International Journal of Epidemiology, 40(3), 780-785.