「ビッグデータ探偵団」
Yahoo!ビッグデータレポートチーム 2019年 講談社現代双書
Yahoo!ビッグデータレポートチームが書いた本です。データサイエンティストなんだから、立場上、読まないと … なんですが、あまりにも入門者向けで … しかも、「相関」や「因果」の定義も出鱈目。とはいえ、一部には面白い部分もあったのでよしとしましょうよ〜。
そうそう、最近「定量分析と定性分析のどうやって連係させどのように融合するか?」という質問を受けました。答えは簡単。定量分析と定性分析という区別をつけていること自体が間違い。「定量と定性を分けた」その時点で、分析は放棄されています。数式は言葉である、を忘れた人。数「字」と数「値」の区別がつかない人間。経済は「感情」を「勘定」することだということを理解できない人々。そういう御仁には「分析」などという言葉を発する資格はありません。この本の著者は … 。 以下はこの本の要約と引用です。
《1. ビッグデータは「深層」を描き出す》
思ったことをすぐに投稿するツイッター。時刻による関心事の傾向も把握できる。
一人が1年間に電車を利用する回数を見ると、東京は電車社会であることが解る。東京の人は年間800回以上。神奈川や大阪が400回以下・大半の県は車がメインの生活だ。
《2. ビッグデータはこんなに役立つ》
「Yahoo!地図」でも「人口密度マップ」は、人口密度の差をヒートマップで表示している。
「自分の身の回りのことにしか興味がない」と言われる現代人。「森友・加計」問題への関心の世代間の差は、日中のワイドショーの報道で説明できる。辺野古の「基地」問題については、身近な西日本では関心が高いが、東日本では低い。
ある政党に関連するワードの検索量と、その政党の得票数の間に相関がある。Yahoo!検索の検索数と、政党名への言及のあるSNS投稿数で検証した。公明党は、検索量が少ない割には得票数が多い。公明党の得票は注目度と相関しない。新しい政党は注目を集める。但し、検索数は多い割には得票には結びつくとは限らない。
景気の予測に挑戦した。Yahoo!検索に1年間に検索されたキーワードの全種類は、75億種類。毎日一定数以上検索されているのが60万キーワード。景気動向一致指数と|±0.8|以上のキーワードは206が該当した。高い多重共線性もつ変数の片方を除外して196。そして、オーバーフィッティングを解決してモデルを作った。結論としては、「真の景気」はどこにも存在しないし、正しいかどうかを判断することも誰にもできない。