基本読書

基本的に読書のこととか書く日記ブログです。

自分の中に判断基準を持つために──『ダメな統計学: 悲惨なほど完全なる手引書』

ダメな統計学: 悲惨なほど完全なる手引書

ダメな統計学: 悲惨なほど完全なる手引書

この科学全盛の現代、世の中数字ばかりである。研究不正は後を絶たず、統計の誤謬が最低限見抜けなければ誤った情報で結論を導くはめになってしまうから、統計の基礎知識は科学者やデータサイエンティストのみならず必要不可欠になってきている。

世はまさに大科学時代

そこで『ダメな統計学: 悲惨なほど完全なる手引書』が登場する。本書は統計学の入門書──というわけではなく、ダメな統計学の用いられ方/ダメな統計の取り方はどのようなものか、なぜダメな統計なんてものが出てきてしまうのかといった人間の心理面、環境面まで含めて一つ一つ取り上げ、仔細検討し、読んだ人間が統計手法を用いる際の誤りを減らし、統計の正誤を判断できるようにするための一冊である。

 私の目的は、単に、よくある誤りの名前を教えたり、笑い飛ばす事例を提供したりするというものではない。できるだけ数学の詳細を書くことを避けつつ、統計に関する誤りがなぜ誤りなのかを説明し、こうした誤りのほとんどがどれほどありふれたものなのかを示した調査を含めるようにした。このことによって、読むのに労力を要するようになったが、この深みにはそうする価値があると思う。統計の基礎をしっかりと理解することは、科学にたずさわるどの人間にも必要不可欠だ。

『統計の基礎をしっかりと理解することは、科学にたずさわるどの人間にも必要不可欠だ。』<僕もまったく同意見。科学はただ科学だから正しいのではなく、正しさを判断するために必要なプロセスを踏んでいるからこそ、再現性があると判断できる。そのため、"必要とするプロセス"の部分を理解できずに飛ばして"科学だから正しいのだ"と考え出してしまったら、それは魔術や呪いを信仰するのとそう大差はない。

さあ、とはいえそう簡単な話ではない。もし簡単に統計が学べるのであればここまで大きな問題にはなっていないから、やはりそこには誤りが蔓延する理由がある。単純に十分な教育がなされていないのもあるが(たとえば多くの医学研修生は必修では統計を学ばず、医学分野でよく使われる統計手法に関する医学研修生へのテストは正答率が平均して50%以下である)研究者には統計を誤魔化す動機がいくつもある。

研究成果を論文として発表しなければというプレッシャーは常にふりかかる。誤魔化そうと思えばそのやり方はいくつもあり、統計的な誤りを検証するには多大なコストがかかるから、バレにくい。それどころか、自分でもよくわかっていないうちに統計の誤りに陥ってしまっていることもある。それが統計の難しさともいえる。

検定力の不足した統計

統計の誤りの中でもよくみられるのは、確かさの尺度である検定力が足りていない統計である。たとえば、コインを100回投げ、そのコインが真っ当なコインか、不正がなされているコインかを確認するための数値はどのようにして算出したらよいか。

真っ当なコインの場合、表の出る確率は40回〜60回の間で95%になる。一方で表が出る回数が64回以上、または36回以下である確率は1%以下に過ぎないから、そうした外れ値が出たら、不正なコインの可能性が高い。100回のチャレンジだけだと、当然1%以下の確率を引く可能性はあるから、200回、300回と試行回数を重ねることで、不正なコインにせよ真っ当なコインにせよ、より確かな数値に収まっていく。

しかしこの試行回数が稼げないと、途端に判断が難しくなる。たとえばインチキで60%の確率で表が出るコインがあったとすると、コインを100回投げた後にインチキだと結論づけられる確率はたったの50%しかない。なぜなら必ず60回表が出るわけではなく、真っ当なコインの誤差との判断がつかない可能性が50%あるからだ。

コインの裏表の場合はインチキを見破るためには単純に試行回数を増やせばいいが、人間が関わる試薬関連の実験や、論文の不正検証のために何倍もの試行回数を試すといった場合にはコスト面からあまり現実的な解答とはいえなくなってしまう。

科学者は一般的に、想定された実際の効果を検出できる確率が80%以上であれば検定力が十分にある、統計的に意味がある数字だとして満足するが、この計算をする科学者はほとんどいないという。最近でも、ガン研究では十分な検定力があった研究は否定的な結果の公刊された研究の約半数に過ぎないし、神経科学では集められるデータが少ないため探し求めている効果を検出できる可能性は20%しかない。

科学者さえもよくわかっていない

そんな話を聞くと絶望的な気分になってくるが、これも仕方がないと思わされる側面はいくつかある。たとえば死亡リスクが20%から10%に減少する心臓発作の新しい治療手順を試験しようとした際、検定力を80%以上にしようとすると統制群と処置群で200人ずつ、合計400人も必要になる──がそんなのはほとんど不可能だ。

また、非常に面倒な問題として、実験を行う科学者は何度も何度も繰り返し仮説を立て、検定を行うので、その過程で"偶然"有意なものを引き出すことができてしまうことがある。コインが僅かな確率で外れ値を出したり(60回以上表を出したり)するように、何度も何度も執拗に繰り返しているとたとえ頓珍漢な仮説であってもそれを裏付けるデータがとれてしまうことがある。『この有意な結果が、論文の中で取りあげるのに十分なほどおもしろいものであるかぎり、科学者は自分の研究に検定力が足りないとは感じないのだ。』という、(やった本人は)幸せな誤謬が発生してしまうのだ。

データを集める時に、どんな事例を除外するか、グループをどう定義するか、といったおおむね科学者個人の恣意的な判断に任せられている領域では、そうと意識せずに自分の仮説が立証されやすいように都合よく変更してしまっていることもある。話がここまでくると統計学の問題というよりかは心理学や行動経済学の領域にまで入っている面もあるが、とにかく人はあらゆる方法で、"間違える"のである。

何ができるだろうか

本記事で述べてきたのは本書の内容の本の一部なので、続きは是非読んで確かめてみてもらいたい。統計の誤りについて社会がとるべき方向性としては、より実験データ/手法を共有すること、統計教育を必須とし、より丁寧に行うことなどが考えられるだろうが、まず我々個人が最低限の統計知識を備え、おかしければおかしいと声をあげていくことが重要だろう。本書は、その最初の一冊にふさわしい。