ビッグデータって何?というのを学ぼうと思い「ビッグデータの正体」という本を読みました。正体暴いてやります。
ビッグデータは限りなくすべてのデータを扱う
大量のデータを扱える技術、環境、ノウハウが培われる以前は、必要最小限のデータを使って、最大の知見を得るという統計学が非常に重要だったようです。
つまり、統計的なサンプリングで一部のデータを使って分析をするということですね。
選挙時の出口調査とか内閣支持率みたいなのはこれですかね。無作為にサンプリングするというのが重要ですね。この「無作為」というのが意外と難しいんだと、本書でも述べられていました。
それが、コンピュータの計算能力の向上や、データ格納容量の増加、大量データを扱うノウハウ、仕組みが確立してきたことで、「無作為にデータをサンプリングするのが難しいなら、データを全部集めて、全データを分析すればいい!」となったんですね。
量さえあれば精度は重要ではない
全部のデータを扱うとなると、私なんかは、「悪意のあるデータなんかが入ったりするんじゃないの?」「その分析結果って正確なの?信じて判断していいの?」とか考えてしまいます。
それに対してのビッグデータの位置付けとしては、次のように本書では述べられてました。
数字から精度を読み取るのではなく、確率を読み取るのがビッグデータ
正確=メリットという考え方を改める必要がある
反省します。
分析するツールがいくら発達しても、その結果をどのように解釈するかは最終的には人に依存するということですね。
「データは確率的には XXXX という戦略をとる方がうまくいくと示しています。」と言われて判断するこれからの経営者は、ビッグデータに関するある程度の知識が求められそうですね。そうした人に助言できるような、データサイエンティストと呼ばれるような人たちは今後も重宝されるんでしょうね。
因果関係ではなくて相関関係が重要になる
ビッグデータは相関関係を示すためのもので、因果関係を示すものではないということのようです。
なるほどです。「ロジカルシンキング=因果関係を見つける」と考えがちですが、ビッグデータはそういう類のものではないと理解する必要がありますね。
「XXXX が良いとデータは示しているのはわかったけど、それはなぜ?」という質問をするのはナンセンスなんですね。それに対する答えは、「データがそう言っているから」でしかないということです。
データのインプットが大事
クズのデータからはクズの結果しか出ない
という引用がありました。
アウトプットしたい内容にふさわしいデータかどうかの見極めが大事なんですね。
これは、先日読んだ下記にも書いていた気がします。
ビッグデータを正しく扱える人材、制度が必要
ビッグデータを使う人にはビッグデータを正しく扱うための能力や制度が必要になります。
人間の行動の予測が正確になっていく。実際の行為ではなく、予測される行為で人を判断する誘惑にかられる。
怖いですね。
もし、自分の過去の行動データが、「この人は犯罪を犯す可能性がある」と判断してしまった場合、このデータを扱う人(例えば警察)が、「事件が起こる前に捕まえよう」 と判断してしまったり、それを許すような法制度だとしたら、せっかく世の中を便利にするための技術によって生きにくくなってしまいます。
事前に起こる問題を防止するという点では良いとも考えられますが、ビッグデータはあくまで「起こる可能性がある」ことを示すので、起こった事実ではないですからね。
ビッグデータを正しく扱う制度が必要です。