基本読書

基本的に読書のこととか書く日記ブログです。

科学の世界に革命をもたらしえる力──『因果推論の科学 「なぜ?」の問いにどう答えるか』

この『因果推論の科学』は、その名の通り因果推論について、その先駆者の著者が書いた一般向けのサイエンス本である。とはいえ、大半の人の反応は「因果推論ってなんなんだ」であろう。僕も何もわからぬまま読み始めたが、著者がこれは「科学の世界の革命」であると自賛するだけのことはある概念であることはすぐにわかった。

その一方、相当に難しい、とっつきづらい概念でもあり、いかな一般向けの著作といえども本書を読んで理解するハードルは他のサイエンス本と比べても高いといえるだろう。数式も出てくるし、統計学の用語もぽこぽこ出てくるので、素人がスルスルと読み通せる本ではない。とはいえ根気強く読んでいけば理解できるように書かれているし(数式自体は別に読み飛ばしても問題はない)、理解すれば因果推論の科学がいかに現実を理解するにあたって有用なのかを知り、その効力に驚くことになるだろう。

僕自身理解できたとは言い難いが、本書の魅力をできるかぎり紹介してみよう。

因果推論の科学とは何か

因果推論とは何なのかといえば、これはそう難しいことはない。世界には「因果」がある。ガラスに向かって石を投げて割れたら、その投げられた石と割れたガラスという結果のあいだには因果関係があるといえる。我々は普段こうした因果関係を中心に物事を考え、世界を認識している。たとえば、この新しい薬は病気を防ぐのにどれだけ有効か。仕事を辞めようと思っているが、これは正しい選択だろうか。

選択Aのあとに起こる結果Bは何か。これを確実に知ることができれば世界はわかりやすくなる。そんなこと簡単じゃないか、と思うかもしれないが、これが実は難しい。理由はいくつかあるが、ひとつは統計学が長らく因果関係を扱ってこなかったことにある。たとえば、ウォーキングを毎日している人は、ウォーキングをしない人と比べて12年間の死亡率が低いことを示すデータがあったとする。その場合、ウォーキングをしている、「だからこそ」その人は死亡率が低いといいたいが実際には難しい。

ウォーキングを積極的にしている人は年齢が若い人が多いからかもしれないし、性別が関係しているのかもしれないし、遺伝子が関係しているのかもしれない。結果的にウォーキングをしているから寿命が伸びたように見えただけで別の要因があるかもしれない──観察から見えてくるのは「相関」であって「因果」ではない。

因果推論は「だからこそ」を扱う。ウォーキングをしているからこそその人は寿命が長いのか? と問い、その答えを出すための科学的手法である。これをわかりやすくするためツールに「因果ダイアグラム」があり、因果関係を断定するために重要な「バックドア調整」、「フロントドア調整」、「操作変数」などいくつもの手法があり、さらには因果関係の基礎をなす存在しなかった可能性を考慮に入れる「反事実」を取り扱う数学モデルもあって──と本書ではこの20年で発展してきた因果推論をその奥深くまでおっていくことになる。

因果関係にいたる三段のはしご

ここまで読んでも具体的に因果推論が何で何ができるのかまったくわからないと思うが、そこに至るにももう少し説明を加える必要がある。その最初の前提となるのが、因果関係を用いて世界を理解する能力の3つの階層についてである。

たとえば、因果関係における最初の階層・段階は「関連付け」だ。状況を観察して、そこから規則を導き出す。フクロウはネズミの動きを観察、先読みして捕食に動くだろう。このときフクロウは1.関連付けを行っていると言える。これはAIも同じようなことをやっている。大量のデータを元にそこに関連性を見出して、そこに相関関係を見つける。機械学習は進歩したようにみえるが、その根幹となるプログラムは30年前とかわらず、結局この因果の一段回目の機能を果たしているだけだ。

因果の階層の二段階目は「介入」だ。ウォーキングをしている人としていない人を観察して寿命についての仮説や相関を導き出すのは「関連付け」で、ウォーキングを毎日2時間やらせたら、寿命はどう変わるか? を問うのが「介入」になる。こうした介入を伴う問いには受動的なデータがどれほどあっても答えられない。

第三段階目は「反事実的な問い」だ。ウォーキングを毎日2時間しており12年間無病息災だった人がいたとする。だが、もしその人が過去に巻き戻ってウォーキングを一切しなかったらどんな変化があるだろうか? この反事実的な問いもデータとは相性が悪い。起こらなかったことを考慮に入れる必要があり、事実を扱うデータとは相反するものだからだ。しかし人間は常日頃こうした「もし〜だったら」という問いをしている。こうした反現実的な問いに答えられる因果モデルがあるとしたら、それによる利益は計り知れないが、因果推論の科学はまさにこれを取り扱おうとしている。

確率とは、静的な世界に関して私たちが抱く信念をエンコードするものだ。一方で因果関係とは、介入あるいは想像という行為によって世界が変化したとき、果たして確率は変わるのか、どのように変わるのかを語ってくれるものだ。

do演算子の力

本書ではいくつもの因果推論の科学の根幹をなす手法が語られていくが、すべてを紹介することは不可能なのでその中でも重要な「do演算子」についての紹介を行おう。

統計の世界では確率を調べる場合、P(12年間の死亡率|ウォーキング(毎日1時間))といった記述を用いて問題を表現する。縦の棒は「観察して考慮に入れた場合」を意味し、Pは確率を意味する。P(12年間の死亡率|ウォーキング)はウォーキングを毎日1時間程度やっている人間の今後12年間に死亡する確率(P)を表している。ウォーキングをする人に比べて、ウォーキングをしない人の死亡率は2倍になっているとする。

do演算子とはP(死亡率|ウォーキング)をP(死亡率|do(ウォーキング))とすることだ。前者は「観察した結果」である。後者はそうではなく、「ウォーキングさせる」になる。どちらも同じにみえるが、実は大きく異なるのだ。

たとえば、上記のような仮想例をみてみよう*1。一番左は、ウォーキングが死亡率と無関係なケースだ。しかし、この例では未知の共通要因は人を歩かせる因子でもあるので(年齢とか。若いほど歩くだろう)、擬似的な相関関係になっている。これが現実だった場合、「do」で介入し歩かせたとしても、その人の死亡率はウォーキングをしない人たちと比べても大差はないはずだ。

次に真ん中の例が現実だとすると、歩くことがそのまま死亡率の低減に繋がっていて、なおかつ他に何も死亡率に繋がる要因が存在しないので、doで歩かせた場合、当初の想定通りの確率Pが出るはずだ。一番右の例では「ウォーキング」は死亡率に関連しているが、未知の共通要因も死亡率に関係している。そのため、ウォーキングだけ毎日行わせると、観察のみの結果よりも高い死亡率が観測されるはずだ。

このようにすれば、未知の要因がいくつあるかわからずとも、それが結果にもたらす影響力を割り出すことができる。本書では統計用語の交絡(統計モデルに相関する外部変数。ウォーキングと健康の関係における年齢のようなもの)の定義について、条件付き確率P(Y|X)≠介入確率P(Y|do(X))を引き起こすものとしているが、その箇所を読みながら交絡をこれほどわかりやすく表現できるのか、としびれたものだった。

「介入」といったってただただ介入すればいいわけではなくて、余計な因子が結果に影響を与えないように慎重に状況を整えてやる必要もある。著者のジューディア・パールは本書で、その方法(状況を整えてやる)だけでなく、バックドア調整にフロントドア調整といった手法で、面倒で時間のかかるdo演算子、介入なし、観察データのみによって因果効果の推定ができることも示していく。

おわりに

「因果」や「原因」を明確に定義し、それを証明する手法を編みだすことの意義は計り知れない。「相関関係がある」にとどまっていると、論争が続いた喫煙と肺がんの関係性のように、規制や注意喚起も遅れる可能性がある。さらに因果関係をモデル化することで、人間のように「なぜ?」と「反現実的な問い」を行うことができる「強いAI」を作り得る未来にまで言及しており、てんこもりの一冊である。

一回読んだだけでは理解できず、めちゃくちゃに本に書き込みを入れながらもう一度読むことになったが、それだけの魅力のある本だ。

*1:本からの引用じゃなく僕がわかりやすいようにでっちあげたやつなので間違ってたらごめん