基本読書

基本的に読書のこととか書く日記ブログです。

文体、プロット、トピック、全てを解析する──『ベストセラーコード 「売れる文章」を見きわめる驚異のアルゴリズム』

ベストセラーコード 「売れる文章」を見きわめる驚異のアルゴリズム

ベストセラーコード 「売れる文章」を見きわめる驚異のアルゴリズム

  • 作者: ジョディ・アーチャー,マシュー・ジョッカーズ,西内啓,川添節子
  • 出版社/メーカー: 日経BP社
  • 発売日: 2017/03/23
  • メディア: 単行本
  • この商品を含むブログを見る
本書は「ベストセラー小説に普遍的な法則は存在するのか?」という問いかけを、独自の判定モデルをつくりあげ検証した著者らによる一冊である。小説がヒットするかどうかは時の運という人も多いし、実際運が関与しない事象などこの世に存在しない以上それは正しい部分はある。そうなってくると次に出てくる問いかけは、運の割合はいったいどの程度のものか? というものだ。本書はそれを解析してみせる。

手法のひとつを簡単に説明すれば、まず小説の特徴を抽出するアルゴリズムを用いて評価したい本の各特徴を分類/定量化する。その後、ベストセラーと非ベストセラーを大量に読み込ませ、機械学習を用いてベストセラーの特徴を学んだアルゴリズムに、評価したい本の特徴を投入することで、ベストセラーになるかどうかを80〜90パーセントの確率で判定することができる。この手法で分析できるのはどのトピックが売上に関連しているのかだが、本書はその他にもプロット、キャラクタ、テーマ、そのらがどの程度売上に関連しているのかといった多くの物事を明らかにしていく。

明らかになりすぎる、といってもいいかもしれない。とんでもなく刺激的な一冊だが、これが広く読まれ、ベストセラー特有の傾向を誰もが作品に活かし始めたら、市場の作品の画一性は増し、僕の好きなタイプの作品が書かれなくなるのでは……(たとえば宇宙での戦いや宇宙船が出て来る物語はベストセラーとは相性が悪いと指摘される。早川書房の偉い人がこれを読んだらヤバいではないか)と、多大な危機感さえも湧いてくる。広く読まれてほしくないとさえ思ってしまうほどだ。

トピック、プロット、文体

それではもう少し具体的にベストセラーの特徴と、その判断に用いられる要素を追っていこう。ひとつは先にも触れた"トピック"である。法律、釣り、家族、何でもいいが小説内に何度も出てくる単語があれば、それは作品内での主要なトピックだとアルゴリズムは判断する。たとえば、意外なことだが、ベストセラーと比較すると非ベストセラーではセックスに関する描写が2倍でてくることがわかっている。

モデルによれば、各章にセックスが出てくる本がベストセラーになることはほとんどないという(ただ、他の要素が優れていればベストセラーになることもある。たとえばセックスしまくりだが売れまくった『フィフティ・シェイズ・オブ・グレイ』のように)。つまり、基本的には売りたければセックス描写は控えめにした方がいい。

売れるトピック"と"売れないトピック"の分析も重要だが、トピック数を作品内でどう調整するかも重要であることがわかっている。たとえば、売れる作家は冒頭3分の1にひとつかふたつのメイントピックしか入れないのに対して、売れない作家はたくさんの項目(3分の1に到達する前に3つかそれ以上のトピック)を詰め込んでしまう。また、ベストセラー作品では2番目以降のトピックは1番目のトピックと衝突を示していることも分析からわかる。たとえば子供と銃、信仰とセックス、愛とヴァンパイアなど、2つの単語をみただけで大きな問題が起こる予感がする。

本書は他にもプロットの分析を行い、小説は主に7つのプロットに分類されることを示し、プロットに関しては売れるためにはどの形式が一番ということはないことを明らかにしてみせる(たとえば、バッドエンドで終わる物語であっても充分ベストセラーにはなりえることを示す)。この辺の話は非常に客観的な洞察に満ちているので、トピックの話と合わせて作家志望者には必読といっていいないようだと思う。

文体についての分析

個人的に興味深かったのは"文体"についての分析だ。たとえば、時折人気作家は自身の名前を伏せて、別の名前で小説を発表してみせる。作風や文体から話題になってバレることが多いようにも思うが、文体から個人を判断する、文体の特徴を機械的に抽出することはできるのだろうか?といえば、これがある程度はできるようだ。

原稿をばらばらに分解し、名詞、福祉、形容詞などを集めれば、書き手がどのくらいの頻度で形容詞を使うかといった情報が割り出せる。『ダヴィンチ・コード』でダン・ブラウンは100ワードごとに平均7回theを使ったが、『法律事務所』のジョン・グリシャムは平均6回に満たない、というようにtheの使用頻度だけでも作家ごとに特徴があり、書き手の個性を推測できる。71パーセントの確率で書き手の性別さえも判定可能だというから、文体の情報量の豊かさには驚かされるばかりだ。

その上、「the」や「of」を用いた回数、特定の単語の使い方は売上の多寡の指標になるとモデルは示している。たとえば、「do」はベストセラーではそれ以外と比べ2倍の頻度で登場し、veryは逆に半分しか登場しない。つまり、文体は売上的にも重要な意味を持っており、どのような文体が効果的なのかについても、本書は法則を明らかにしている。この辺、英語の話なのでいまいちピンとこないかもしれないが、日本語でも同様の検証はできるはずなのでどこか試してみてほしいですね。

活用方法は広い

他にもベストセラーの書き出しにはどのような法則性があるか? ベストセラー判定モデルがもっとも売れると判断した一冊は何か?(これが、結構意外な結果) キャラクターの行動の違いによって売上に違いは出るか?(これは作家志望者は必読) など魅力的な問いかけが連続するが、キリがないので終わりにしておこう。

本書で明らかとなる結果の中には古来から作家や批評家に指摘されてきたものも多い。プロットに特定の類型があること、ペンネームの異なる同一作家の共通性を見抜く人も数多くいる。とはいえここで重要なのは、再現可能な形で、より機械的にそれらが判断できることだ。後に大いに売れた作品が、最初は出版エージェントに断られ続けた──などという話はいくらでも聞くことが出来るが、このベストセラー判定モデルを使うことで、そうした悲劇は少なくなるかもしれない。

より未来に目を向けると、人工知能が小説を自動生成した場合、どこかのタイミングでその内容を評価し、フィードバックすることで精度を上げていく必要がある。そこでこのベストセラー判定モデルを使えば、「書くAI」と「読み、評価するAI」で高速の評価/小説生成ループを構築することも可能になるかもしれない──と考え始めると活用範囲は非常に広く(新人賞の選考とか……? でもAIに落とされたら怒るよね)これまたキリがないが、本書の試みは小説世界を一変させる可能性を秘めている。

それが読者や人間の作者にとっていいことなのか悪いことなのかは今のところはまだ僕には判断がつかないが、どちらにせよこの流れは止めることはできないだろう。似たようなところでは『カルチャロミクス』もオススメ
huyukiitoichi.hatenadiary.jp