基本読書

基本的に読書のこととか書く日記ブログです。

騙され、不利益を被らないないために必要な基礎知識──『データは騙る 改竄・捏造・不正を見抜く統計学』

データは騙る: 改竄・捏造・不正を見抜く統計学

データは騙る: 改竄・捏造・不正を見抜く統計学

ファクトの価値が高まり続けている昨今だが、そうはいっても何がファクトなのかを見極めるのは難しい。リアルに存在している石に向かって「そこに石がありますよね❔」のような100人中100人が同意するようなファクトばかりがこの世に溢れかえっているわけではなく、ファクトの中にも「だれがどうみてもファクト中のファクト」なやつと「ファクトからずり落ちそうなファクト」とかいろいろなレベルがある。そのレベル分けをある程度自分でできるために必要なのが、統計の知識である。

本書『データは騙る 改竄・捏造・不正を見抜く統計学』は、そんな統計の知識の中でもとりわけ「騙り」の見分け方に焦点を当てた一冊だ。「パターン、パターン、パターン」、「ゴミを入れれば真理が出てくる」、「テキサスの狙撃兵」など様々な章で、「人間がどのようにデータで嘘をつくのか」あるいは、「人間はどのように統計を駆使する際に間違えてしまうのか」を豊富な具体例を通して紹介していってくれる。そうやって「騙り」を暴いていく実例の中には、僕がすっかり信じ込んでいたものもあった(後述するが、『ヤバい統計学』の中で紹介されたとある統計など)。

科学や経済、社会学系のノンフィクションを読むときはもちろん、最近は生活の中のあらゆるシーンでデータと、データから何らかの仮説を引き出すために用いられた統計学に接する機会が増えている。そうであるからこそ、そうした統計を扱う側だけではなく、受け手側でもいくらかはその妥当性を判断できるようにならなければまずいだろう。そうでなければ、科学/統計は魔法と変わらなくなってしまうのだから。

ざっと紹介する。

さて、ざっと紹介してみよう。構成としては全19章で、それぞれに統計を扱う/読む時に陥りやすい誤謬、あるいは意図的な騙りのテクニックについて書かれている。たとえば一章は「パターン、パターン、パターン」。我々は遺伝的にパターンを探してしまう生き物だ。ある食べ物を食べてパフォーマンスを発揮できたのなら、次もその食べ物を食べようと思う。自分が試合を観戦している時に限ってひいきのチームが負けるから、いっそみないほうがいい。タコのパウルがワールドカップの勝敗を次々と当てたのなら、このタコは預言ダコだ、などなど。実際にはその全ては間違いだ。

では、そうした仮説をどうやって検証したらいいかというと、ひとつには統計学者が「統計学的に有意である」とみなす状態まで持っていくことだ。たとえば、アスピリンを毎日飲むと心臓麻痺を起こすリスクを下げることができるという仮説を検証するためには、1.健康な成人をランダムに集めて2グループつくる。2.片方のグループには毎日アスピリンを飲んでもらい、もう片方には偽薬を飲んでもらう。3.誰がどちらに属しているかは、実施者にも被験者にもわからなくする。(二重盲検法)。

そうして、二グループのうち実際にアスピリンを飲んでいた方が心臓麻痺を起こす割合が減っていたら「確かに効果がある」と判断されるわけだが、人間にはばらつきがあるので単純に運だけで心臓麻痺が起こったり起こらなかったりする。最終的な結果の差が「偶然その観察結果になる確率」が5%未満であれば、ほとんどの研究者は「統計学的に有意である」とみなす。実際、アスピリンは心臓麻痺に効果がある(2万2000人を対象にしたアスピリン実験では、偽薬グループでは18人、アスピリングループでは5人が致命傷の心臓麻痺を起こした)とされ、アメリカ心臓協会では心臓麻痺を起こすリスクがある人にアスピリンを服用するように勧めているようだ。

統計的に有意性がある、の恐ろしさ

でも、この「人間にはバラツキがある」「5%未満」というのが曲者で、仮に1%の偶然であっても、100回繰り返せば(100回繰り返して1%の割合を引く確率は約63%しかないので、このたとえ自体が落とし穴であるのだが)1回は引いてしまう。たとえば、タコのパウルだって偶然当てる確率は1%以下なのだから、統計学的に有意だったのだ。ある心理学雑誌によれば、発表されている実験結果の97%は統計学的に有意となっているという。それはそうだ。統計学的に有意でなければその価値が認められないのだから、”統計学的に有意になる結果だけを残すに決まっている”。

 一つの方法としては、たくさんの理論を検証し、統計学的に有意な結果が得られたものだけを公表するという手がある。無意味な理論ばかりを検討したとしても、二〇のうち一つは統計学的有意性が得られるだろう。(……)社会にとって問題なのは、私たちがこの統計の氷山の一角しか見ていないということだ。統計学的に有意な結果は見られるが、それ以外の実験は目にすることはない。発表される実験結果のかげには、公表されない結果が大量にあり、どうしようもない理論でも二〇のうち一つは統計学的に有意な結果が出るということを知っていれば、世に出ている結果をもう少し疑いの目で見られるようになるのではないか。

高所から落ちた猫のほうがよく生き残る?

他にもたくさんの統計の誤りが紹介されていくのだけれども、個人的におもしろかったのは「高所から落ちたネコ115匹のうち、9階以上から落ちたネコの5%は助からなかったが、それより低い階から落ちたネコは10%が助からなかった」という統計。獣医学者は、高所から落ちたほうが滞空時間が長く、体を広げて速度を殺すことで結果的に生存率が上がったのではと意見をいっていたようだが、実際にはここでは生存者バイアスが働いている。そもそも高所から落ちて即死した/生存の見込みのなくなったネコは病院に運び込まれないので、逆に生存率が上がるのである。

個人的に知らなくて驚いたのは、『ヤバい経済学』で語られていた「中絶が合法化されたことで犯罪率が減った」と主張する統計が間違っているという主張である。中絶が合法化され 貧困家庭の望まれぬ子供が生まれる割合が減り、犯罪率の減少に繋がったというのが元の主張だが、実際に中絶が合法化された年以後に生まれた子供の殺人の発生率が低くなったか細かくデータをみていくと、そんな事実はまったくない。

『ヤバい経済学』の二人が間違えていた理由は3つある。1つ目は、逮捕データを使っていたこと(犯罪から逮捕までには1年以上時間がかかることもある)。2つ目は、犯罪の総件数を使っていて、犯罪の発生率(人口の規模にあわせて調整した数)を見ていなかったこと。結果として、中絶をしたら人口が減るので、単にそれと合わせて総件数としての殺人犯罪率も減っていた。割合には変化がないどころか増えていた。3つ目は、週ごとの毎年の変化を考慮に入れた統計処理を行っていたと言っていたが、実際にはミスでしていなかったという。レヴィットは実際にそのミスを認めている。

おわりに

結局のところ──「これはちょっとおかしいぞ」と思うような統計やデータにいきあたったとしても、それを受け手側が実際に確かめたり、計算し直したりすることは難しいのだろう。「必要な統計処理を行っています」と書かれたら「そうなんだ」と思ってしまってそれ以上追求しようとは普通は思わない。とはいえそれは、おだしされたものをそのまま鵜呑みにしなければならないわけではなく、我々はこうした前提を頭に入れておくことで、少なくとも目の前にあるデータを疑いの目でもってみることができるようになる。それは、少なくとも鵜呑みにするよりかはよほど安全側だ。