「データサイエンティスト入門」 野村総合研究所 2021年 日経文庫
データサイエンティストについての日経文庫ですから、読んじゃいました。でも中身はスカスカだったけれど … IT業界ですからね … 中身が無いのは完全無欠の「想定内」ですよね! 以下はこの本の要約と引用です。
《1.今なぜデータサイエンティストなのか》
データを分析して、価値ある出力を提供するのがデータサイエンティストです。
コンピュータに規則(アルゴリズム)を学ばせることがAIを進展させます。このアルゴリズムを見つけるのがデータサイエンティストに求められていることです。
因果推論を用いた政策効果の測定は、政策の評価や改善に役立と評価され、ノーベル経済学賞を受賞しました。例えば、因果推論では、広告に接触した人が「もし、接触しなかったら」どうなっていたかを分析することで、因果関係を推計します。
現在は、社内に手本となるデータサイエンティストがいない、ロールモデルの不在が課題となっています。
マーケティング戦略の歴史は、データ取得の歴史です。CSの時代からCRMの時代になると、POSデータなどから顧客属性や購買履歴が取得できるようになりました。CXの時代に入り、購買の背景となる情報、Webサイトの閲覧履歴なども取得できるようになり、その人の志向を分析できるようになりました。CX戦略では、顧客の感情を考慮して顧客接点を管理することが重要です。顧客をプロファイリングするためのデータが取得できるようになったことが、CX戦略が注目されました。取得できるデータの幅と深さが変化するたびに、マーケティング戦略は変化してきました。
経営コンサルタントは「課題解決型」、つまり、企業の問題点を洗い出して、影響の大きな課題を解決していくことを得意としています。対して現在は、ビジョンを描き、それを実現する方法を想像する「ビジョン実現型」の人材が求められています。
《2.データサイエンティストに求められる3つの能力》
・データサイエンティストに求められる3つの能力
ビジネス力:課題背景を理解し、ビジネス課題を解法に導く
データサイエンス力:情報科学を理解し適用する
データエンジニアリング力:データサイエンスを実装し運用する
データ分析力には、自然言語や音声や画像や動画は、非構造化データをどう扱うかも含みます。データエンジニアリングは、分析のためのコンピュータ操作を意味します。DBからデータを抽出・加工するSQLや、データのやり取りのためのマークアップ言語(XML)が必要です。
データ分析の業界標準は、RとPythonです。データ分析をPythonのみで行うデータサイエンティストが増えてきました。Googleが提供するColaboratoryは、Pythonの実行環境が用意され、最新のライブラリーが適用されています。
データサイエンティスト協会では「データサイエンティスト検定」を行っています。統計質保証推進協会の「統計検定」の2級は、データサイエンティストに必須な内容です。データエンジニアリング力では、情報処理推進機構(IPA)の情報処理秘術者試験の中の「基本情報技術者試験」が必須な能力です。
《3.データサイエンティストの仕事》
データベースの構築とデータの品質の担保は、データサイエンティスト自身が行うべき業務です。
仮説構築のスキルには、市場や業務などへの理解が必要です。
分析に必要なデータを抽出し、分析し得る形式に変換することをデータクレンジングと呼びます。欠損値をどう扱うかも重要です、分析の計算は、SPSSやSASなどのパッケージでもできますが、データクレンジングは人間にしかできません。
Poc(概念検証)は、実証実験や社会実験。テストマーケティングに似ています。ビジネスやサービスが成立するかどうかの予測やシュミレーションを行うプロジェクトの重要性は高まっています。
《4.データサイエンティストのリアル》
・MRの営業力強化
大病院で新薬の導入が決まれば、膨大な売上がもたらされる
営業でアポイントをとるための電話音声は録音されている
電話音声は顧客情報やMRの営業実績とも紐づけられている
アポ電話のパターンで営業スタイルが識別できる
営業スタイルによって成績を上げやすい営業先も決まっている
協調フィルタリングの考え方で、MRと営業先をマッチングできる
テキストマイニングは、ステミング(単語に分け、同意味語をまとめる)されたデータから、単語の類似度や出現頻度や共起度を数値化し、意味を解釈します。
《データサイエンティストが拓く未来》
2020年、データサイエンティストの平均年収は791万円。中途採用で募集している企業が多く、売手市場となっています。日本の最終学歴の理系比率は低く、理系人材の不足は深刻です。データサイエンティストに関連した学部や学科が新設されています。
定型的な仕事はAIに置き換えることが可能と考えられています。専門知識を持つ人の仕事が、専門知識が無くてもできるようになります。AIで代替される仕事の裏には、データを整理するデータサイエンティストが必要です。
機械学習では、データの特徴を見ながら、適応させるアルゴリズムを検討し、学習の方法と順番を指定します。定型化されたデータであれば、機械だけで自動で学習できますが、非定型なデータでは、機械が分析できる形に成型することが必要です。
統計学はデータの説明を、機械学習は予想を主な目的としています。
仮名化された購買履歴、移動履歴、閲覧履歴などの個人情報を組み合わせることで、プロモーションに活用できます。仮名化は個人が特定できる情報を除き、個人名をIDコードなどに変換したもの。仮名化されただけだと、個人を特定できる可能性があります。匿名化は、例えば、25歳という年齢ではなく20代という年代にするなど、情報の抽象度を高めます。
2013年にSuicaの匿名化された乗降履歴データを、JR東日本が販売したことが問題になりました。消費者に対する説明不足で、理解を得ることができませんでした。
クッキーには2種類あります。ウェブサイトから直接発行されるファーストパーティークッキーと、第三者(広告代理店など)が発行するサードパーティークッキー。Googleは、2020年に「サードパーティクッキーを廃止する」ことを決定。Appleは、アクセス履歴を7日でクリアする方針です。クッキーが取れないと、リターゲティングがやりにくくなります。
ベイズ統計を応用したのが迷惑メールの推定。特定の単語や複数の単語の組合せの出現する割合などを計算し、迷惑メールを判定をしています。
Google傘下のKaggle社は、データ分析の競技会を開催しています。企業は、賞金を提供してそのモデルやアルゴリズムを買い取ります。無料で参加できる初心者向けトレーニングも提供されています。データサイエンスを育成する場でもあります。
従来のデータサイエンティストの職場はIT業界でしたが、今では様々な業界に広がっています。
近年では、データ分析だけでなく、具体の打ち手を提示する「処方的アナリティクス」が求められています。航空券やホテル宿泊、スポーツや演劇のチケット、配車サービスなどの「価格最適化」。AIによる発注の最適化。売上予想を踏まえて、在庫スペースや発注ロットサイズ、販促計画、売上目標などを勘案しなければAI発注はできません。広告出稿の最適化。広告は媒体が増えて効果の見えづらさが課題となっています。
得られるデータの良し悪しで、可能な精度の上限が決まります。データを継続的に取得するにはコストと手間が掛かります。実装時の制約を考慮してモデル構築しないと、使い物にならないものになります。
日本の若者が自分の将来について希望を持っている割合は、欧米諸国と比較しても極端に低く水準です。
これからはデータサイエンスが経営コンサルタントに代わって、企業経営をサポートする時代になります。データがあるところ全てでデータサイエンスが求められています。