基本読書

基本的に読書のこととか書く日記ブログです。

ビッグデータの衝撃――巨大なデータが戦略を決める

ムーアの法則をご存知でしょうか。コンピュータ製造業における歴史的な長期傾向について論じた1つの指標であり、経験則、将来予測である(Wikipediaより)。ムーアさんは1965年に(凄いですね)約2年ごとに集積回路上のトランジスタ数が2倍になるといったそうですが、今もなおHDDの容量あたりの値段は年をへるごとにどんどん安くなり、データ量は増大の一歩をたどっております。

そうなってくると気になるのは「大量のデータを扱えるようになって今後可能になるのはなんだ」ってところですね。僕は冗談抜きで一つはバーチャルリアリティ、拡張現実が来ると思っています。で、もうひとつはもうすでに着ていますが、ビッグデータによる行動分析の分野でしょう。バーチャルリアリティも今にわかに盛り上がってきているので取り上げたいのですが、まずはビッグデータについてお勉強中です。

本書『ビッグデータの衝撃――巨大なデータが戦略を決める』は教科書然とした内容で、エンタメ的にはいまいちですけどビッグデータについての基礎的な内容の把握に役立ちました。結論部は面白かったかな。次の十年で魅力的な仕事はデータを取り出し、理解し、関連付し、役に立てることができる統計の専門家であるっていうところです。それで最近『プログラマのための統計入門』なんて本が出て、盛り上がっているのかも。

以下メモ的に勉強になったところを書いていきます。ビッグデータについて何も知らずに読み始めたのでまずビッグデータの定義について。たとえばその名前の通りに大量データの分析っていうだけなら従来通りのビジネス・インテリジェンス(BI)として以前から存在したじゃないか。今更衝撃って何?? って感じなんですけど、ビッグデータと従来型の大量データでは主に2つ、違いがあります。

ビッグデータと従来型の大量データは何が違うのか

1つめ。売上高や在庫量などの数値データとは異なり、ビッグデータブームの中心になっているのはソーシャルデータ、クリックストリームなどの構造化されていない非構造化データである。2つめ。この結果を受けて、大量データの管理や分析が従来のウォルマートなどの大企業からウェブ企業やソーシャルメディア企業に担い手が移っていること。以上2つが従来の大量データとビッグデータを分ける違いということになります。

ビッグデータの定義

本書ではビッグデータの定義について、次のようにしています。『ビッグデータとは、既存の一般的な技術では管理するのが困難な大量のデータ群である』。たとえばリレーショナル・データベースでは管理できない複雑な構造のデータを指しています。で、これをもっと具体的に定義したものが3Vと呼ばれるものです。

Volume:データ量をさす。現状では数十テラバイト〜数ペタバイトクラス。
Variety:多様なデータ(非構造かデータ+構造化データ)
Velocity:データの生成頻度、更新頻度(1秒間に数十件以上)

これら3つを合わせたものを現状ビッグデータと呼んでいるような感じです。

なぜ今ビッグデータなのか

そうはいっても過去にこのようなビッグデータがなかったわけではないのですが、今どんどんビッグデータを活用する企業が出てきているのにはやはりいくつかの理由があります。以前との違いとして、当然ながらコンピュータの性能の向上、ディスク価格の下落ですね。それと同時にFacebookGoogleなどより身近なところから大量のデータを取得できるようになったのが大きい。

上記の2つに加えて、リレーショナルデータベースで管理できない非構造化データを扱える大規模データの分散処理技術「ハドゥープ」が登場したのが現在のビッグデータブームの一番の推進要因であるとしています。ほかにもNosqlやらストリームデータ処理などの大量の非構造化データを扱うための技術が次々と出てきていて、これも面白そうですね。

統計屋のニーズの高まりの背景には上記に述べてきたような技術的な面に加え、自社の事業から生み出されるデータ、政府が公開している統計データ、他社との戦略的な情報収集などにより分析のためのデータが能動的に集められるようになった事情があります。今統計屋のニーズが高まっている要因は、それらデータを「ただ集めた」だけでは無意味なことで、それらを解釈し関連づけし、意味のあるものにしていかなければいけないからです。

とまあ簡単ですが、面白かったのはこれぐらいかな。あとはビッグデータ時代のプライバシーについてのお話とか、技術の具体的なところとか、あとはビッグデータの活用事例国内編海外編とかなのでお好みでどうぞというところですかね。プライバシーについての話は面白かったですけれども、また別の機会にじっくり考えてまとめておきたいところです。

ビッグデータの衝撃――巨大なデータが戦略を決める

ビッグデータの衝撃――巨大なデータが戦略を決める

Think Stats ―プログラマのための統計入門

Think Stats ―プログラマのための統計入門