基本読書

基本的に読書のこととか書く日記ブログです。

ゲイ男性は人口の何パーセントか?──『誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性』

誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性

誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性

『カルチャロミクス 文化をビッグデータで計測する』や『ソーシャル物理学』など、何冊もある一般向けのビッグデータ分析系の中にまた新たな一冊が加わった。

本書『誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性』はグーグルのデータ・サイエンティストや大学の客員講師などを勤めてきた著者による、主に全世界的な検索結果から見えてくる人々の「嘘」についての調査記録である。ざっくり説明すると、我々は普通のアンケートや調査には本心を語らない、あるいは自分自身でもよく理解せずに適当なことをいってしまう反面で、「行動」は正直だという話である。もちろん振れ幅はあるだろうけれども、自分が同性への恋愛的な感情を抱かなければグーグルに向かって「私はゲイ?」とはなかなか打ち込まないものである。

言動と行動の不一致は、何も検索結果だけからみえてくるものでもない。たとえば米国人を対象にした総合的社会調査によると、異性愛者の女性は年間平均で55回性交し、その16%においてコンドームを使用していると答えている。そうすると年間のコンドーム使用量は11億個になるが、同じ調査で男性の答えを元にすると男性は16億個使っていることになる。帳尻が合わないのでどちらかが嘘をついている可能性が高そうだが、実態としてはコンドームの販売量はそのどちらともそぐわず、年間6億個にも満たないものだ。つまりどちらも「過大」申告しているのである。

それも嘘をついているのはコンドームの使用量ではなく、セックスの頻度のようだ。これをグーグルの検索結果とてらしあわあせてみると興味深い事態がみえてくる。「セックスレス 結婚」の検索回数は「不幸 結婚」の3.5倍多く、「愛のない結婚」の8倍も多い。結婚においての不満の多くがセックスレスにあることが(少なくとも検索結果からは)みえてくる。そして意外なことに検索結果からは、「彼女がセックスしてくれない」よりも「彼氏がセックスしてくれない」の方が2倍多い、つまり女性の方がそうした不満を(少なくとも)検索に反映させやすいということがわかる。

この辺がこの分析の難しいところで、検索回数が多いからといって「じゃあ女性の方がセックスしたがっているんだ!!」とはならず、男性はたんにそうした問題を検索もせずに鼻から諦めているか、友人にこぼしているか、の割合が高い可能性もある。なので、グーグルの検索結果を元にした何らかの「解釈」は、著者自身も重々承知しているところではあるが、正真正銘汚れのない真実とは言い難い(ものが多い)。そういう前提こそあるものの、本書で開陳されていくデータの多くは興味深いものばかりで、へ〜そういう傾向もあるんだとちょっと距離を取りながら読むといいだろう。

検索結果から見えてくるいくつかの事実。

米国で人種差別は依然ホットな話題であり続けているが、グーグルの検索結果からどの地域で差別用語への検索が多いのか、またどのような事象があったときに差別用語の検索頻度が上がるのかといったことがみえてくる。そうした結果を活かすと、選挙戦への影響度(差別用語の検索回数が多い州では黒人は不利だ。)もわかるのだ。

たとえば「ニガー」や「ニガー・ジョーク」といった差別的意図を持った検索が最も増えるのは、アフリカ系アメリカ人についてのニュースが流れた時ならいつでもだという。ニュースの善悪を問わず、ハリケーンで困窮した黒人たちが報じられた時、オバマの初回大統領選の時、オバマ大統領が差別をやめようと訴えた時、マーティン・ルーサーキングの日には「ニガー・ジョーク」の検索が平均して30%増えた。著者はこうした結果を元に「差別を克服した社会というイメージとは相容れない」と大げさに書いているけれども、いや、トランプ以前からアメリカの人種差別の酷さは(克服されてなさは)明らかだと思うんだけどなあ……と思ったり思わなかったり。

わりかしショッキングなテーマが続くが、ゲイ人口の推計も興味深い話題だ。たとえばアンケートをとっても、嘘の回答が横行するのでなかなか正確な値は取得できない。そこで検索結果をみるわけだけれども、だいたい州ごとに男性のポルノ検索のうちゲイ・ポルノが占めるのは5%ほどだという。同性愛に寛容な州の方が不寛容な州よりもその割合は大きく、裏付けもある程度とれている。それでもパーセンテージを調べただけなの? と思うところだが、他にいくつかのゲイ人口の推定計算手法からも同様の数値が出ており、まあそんなもんかなあという感じの数値ではある。

ちなみにレズビアンはどうなのかと疑問に思うところだが、女性は男性よりもポルノ鑑賞率が低く、その上女性は異性愛傾向が強くてもレズビアン・ポルノを見る傾向があるので、あまり当てにならないのだとか。

おわりに

他にも、婚活パーティへの参加者に録音機を持たせ、その口調や語調のデータ分析を行ったところ、男女が相手にどのような言葉で話しかけているときに「興味がある」のかという解釈が(世の殆どの人にとっては)興味深いだろう。この調査によると、女性は興味のある相手と話す時には、より柔らかな口調で、より自分のことを語りがちになる。『男どもよ、もし女性がどんな話題であれ緩衝的表現を用いるときには──たとえば「っぽい」(sorta)、「みたいな」(kinda)、「たぶん」などと言うときには──彼女はあなたに「たぶん興味ないっぽいみたいな感じ」かもしれない』

とまあそんなところで切り上げようと思うが、他に本書で取り上げられていく話題としては次の通り。「株式市場は予測できるか?」「脱税するのはどんな人?」「マスコミは偏向している?」「2度目のデータにこぎつきたければ、最初のデートで選ぶべき話題は?」「どうしてアメリカンファラオは偉大な競走馬なのか?」などなど。データ分析の限界(なにがわかって、なにがわからないのか)や、そもそも何がデータになるのかなど、検索にとらわれず幅広くデータ分析の活用法を示した一冊である。

あわせて読みたい

ベストセラーにはどんな特徴があるのか? を分析した『ベストセラーコード』は身も蓋もないままに主人公の行動はどうあったほうが売れやすいのか、どんなテーマ、どんなプロットが売れるのかを赤裸々にしている。

ベストセラーコード 「売れる文章」を見きわめる驚異のアルゴリズム

ベストセラーコード 「売れる文章」を見きわめる驚異のアルゴリズム