「基礎からわかるデータサイエンス」
ジョン・D・ケレハー&ブレンダン・ティアニー 2022年 ニュートン新書

 データサイエンスの実際をわかり易く解説する本です。なのですが、訳が悪いのでわかり難くなっているのは残念です。 以下はこの本の引用と要約です。*印はWEB検索結果です。


■ データサイエンスとは

 データサイエンスとは、大量のデータから価値ある情報を抽出し、分析、解釈するものです。膨大なデータが存在し、人間が手動で発見するにはパターンが複雑すぎときこそ、データサイエンスの出番です。

 分散したデータベースを統合してデータウェアハウスが開発されました。

 新世代のデータベース「No SQL データベース」のデータモデルは、関係データベースより単純です。

 分析をするには、データを構造化する必要があります。構造化データとは、表形式のデータを指します。

 MapReduce フレームワークでは、データやクエリを複数のサーバーに割り当て(分散)、各サーバーで計算された結果を集めてまとめます。

 統計分析の最も単純な形態は、記述統計によるデータの要約です。

 t分布型確率的近傍埋め込み法(t-SNE)は、高次元データを、2~3次元に縮約します。データの可視化が容易になります。
*t-SNEアルゴリズム
 第一段階では、高次元データの各対について類似する集合が選択される可能性が高く、一方で異なる集合が選択される可能性が極めて小さくなるように確率分布が構築されます。第二段階では、低次元マップ上の集合について同様の確率分布を定義し、2つの分布間のカルバック・ライブラー情報量を最小化する低次元マップ内の点の位置を求めることが行われます。 

 データマイニングは、データベースからの知識発見です。

 データソースの形態は、関係データベース、NoSQLデータベース、Hadoopなどのデータベースの形式をとります。全てのデータを、統合、クレンジング、変換、正規化する必要があります。

 データサイエンティストに求められる最も重要な資質は、データが物語る物語を伝えるコミュニケーション能力です。

 大量領域の重要な属性が識別できれば、データ駆動型モデルを作るのは簡単です。鍵は、適切なデータの取得と適切な属性の特定です。大切なのは、認識すべき対象と評価の方法を知ることです。

 GPUは、高速のグラフィックレンダリングを実行する目的で開発されました。GPUの特徴は、高速行列演算です。

 データサイエンス領域の人材不足は解消されていません。

■ データとは何か

 データサイエンスの時間と労力のほとんどが、データの収集、分析レコード(データセット)の作成、クリーニング、更新に費やされます。

 属性の種類を理解することこそ、データサイエンティストの基本技能です。

 メタデータとは、データを説明するデータのことです。

・CRISP-DMプロセス
 経験の浅いデータサイエンティストの失敗は、モデリングに労力を費やし、その他を簡単に済ませてしまうことです。熟練のデータサイエンティストは、プロジェクトの目的を明確にすること、適切なデータを揃えることに多くの時間を割きます。

■ データサイエンスのエコシステム

 データの基本設計は、1) データソース、2) データストレージ、3) アプリケーション、で構成されます。

 オンライン分析処理(OLAP)は、データウェアハウスに構築されたデータキューブを処理します。データキューブは、定義された固定の次元を持ち、各次元はデータ固有の特徴を表現しています。OLAPシステムは、データの探索と報告には役立ちますが、データモデリングやパターンの抽出はできません。

 Hadoopは、コモディティサーバーの複数のクラスターにわたる分散ストレージと分散処理を使用します。

*HadoopとNoSQL
 Hadoopは分散処理技術を扱ったソフトウェアであり、大規模・大量データの蓄積と並列分散処理(MapReduce)による高速なデータ処理のために利用する技術です。
 NoSQLは、RDB以外のデータベース全般を指します。データを格納するためにテーブルを使用しない非リレーショナルデータベース。データを名前と値のコレクションとして保存します。 

 データベースからデータを移動するだけで、かなりの時間を費やします。データをアルゴリズムに移動するのではなく、アルゴリズムをデータに移動します。それぞれの格納場所でデータ分析が実行されます。これにより、データの機密保護を維持しながら、能率を向上させます。そして、インデータベース機械学習モデルを実稼働環境のアプリケーションに組み込むのが簡単になります。

 従来のデータベースではペタバイトの規模以上のデータ処理が法外なものになります。

 Hadoopは、バッチ処理のために考案されました。処理中にデータセットに動きがなく、処理結果をすぐに必要としない場合に適用されます。

 ハイブリッド型データベースでは、関係データベースとHadoopが共存します。

 データの準備と統合。データ変換には多種多様な技術が用いられます。

■ 機械学習

 機械学習の目標は、データセットから導き出される「汎化(モデル)」をエンコードすることです。

 教師あり学習は、あるインスタンス(行/エンティティ/レコード)を説明する属性の値を、そのインスタンスの別の属性の値にマッピングする関数を見つけます(ニューラルネットワークや決定木)。適切に説明する属性を持つデータセットの作成に労力を費やします。

 教師なし学習は、主にクラスター分析です。

 ニューロンの多入力線形回帰では、ロジスティック関数と双曲線正接関数が使われます。

 バックプロパゲーション(誤差逆伝播法)は、各ニューロンの誤差を計算し、ネットワーク内の重みを補正します。

 回帰型ニューラルネットワーク(RNN)は、ループのあるネットワーク構成です。ピアソンの積率相関係数と二乗和誤差(SSE)。

 畳み込みニューラルネットワーク(CNN)は、画像データのために設計されました。重みを共有するニューロンのグループの一つ一つが、特定の視覚特徴の見分け方を学習し、グループ内の各ニューロンがその特徴の検出器になります。各ニューロンが画像の異なる場所を調べます。

 ディープニューラルネットワークは、属性を自動で学習できます。入力データと(説明する)属性とのマッピングを学習する能力を備えています。

 線形回帰とニューラルネットワークは、入力が数値の場合に最も効果的に機能します。

 データセットがカテゴリーや序数のときは、決定木の方が適切です。現在の決定木アルゴリズムは、ID3アルゴリズムに端を発します。ID3は、クロード・シャノンのエントロピー測定基準を用います。決定木の強みは、理解しやすいことです。枝にあるインスタンス(行)の数が予め定めた閾値(例えば20)未満のとき、木を止めます。

 多数の機械学習アルゴリズムが存在し、それぞれが異なるやり方でデータセットを汎化します。全てのデータセットの全域で、全てのアルゴリズムに平均的に勝るものは存在しません(ノーフリーランチ定理)。異なるアルゴリズムを試用し比較し、最良のモデルを生成します。

 モデルのテスト。データを学習セット、検証セット、試験セットに分割します。検証セットで最良のモデルを決定します。学習セットと検証セットを学習セットとして、モデルを構築します。評価試験の基準の選定。誤差分析の実施。

 モデリングは、未来は過去と変わらないという暗黙の了解の了解のもとに成り立っています。当然、この仮定が有効とは限りません。

■ 標準的なデータサイエンスのタスク

 4つのタスク。クラスタリング、異常検出、相関ルールマイニング、予測。決定木モデルは、予想タスク向けに考案されています。データアナリストは、クラスタリングに使用する属性の選択を決定する必要があります。顧客のペルソナの抽出などでは、グループ(ペルソナ)の数を決定します。

 異常検出は、金融取引の分析に用いられます。ルールセットはSQL(構造化照会言語)で定義され、業務用データベースに適用されます。クレジットカードの不正使用など。

 相関ルールマイニングは、クロスセリングの機会を探索します。マーケットバスケット分析は、頻繁に共起するアイテムの集合を見つけます。相関ルールの支持度(トランザクション総数に対する共起トランザクションの数の比)と、確信度(前事象を含むトランザクション数に対する後事象を含むトランザクション数の比)。

 傾向モデリングは、ある個人が特定の行動する確率を推定します。サービスを乗り換える(チャーンする)前に、介入措置を講じます。

 モデルを展開する前に、環境を整えます。モデルによる予測が、顧客への効果的な介入となり、結果として顧客を維持できるプロセスが存在しなければ、顧客チャーンモデルを作成する価値はありません。

 商品の価格を予測する回帰モデリング。時系列の取引履歴と顧客属性値のデータセットが必要です。

■ プライバシーと論理

 企業の意思決定がデータ駆動型であるほど、企業の生産性が高い(2011年米国大手企業の調査)。

 政府は監視によって安全性が向上すると主張します。米国国家安全保障局のPRISM監視プログラム。

 オンライン広告の「行動ターゲティング」マーケティングは、費用が嵩むが効果が高いとされます。

 与信リスク評価、航空機の搭乗拒否リスト、クレジットカードのブラックリスト。根拠を見極めたり、異議を申し立てることが難しくなっています。

 人生におけるたった一つの出来事の記録が、長きにわたって存在し続けます。偏見が恒久に残ります。偏見が織り込まれたアルゴリズムは、偏見を助長します。予測型警察活動における予想は、差別的な習慣が強化され、予言の自己成就につながります。

 データ駆動型規制システムによって、疑わしいパターンに一致したという理由だけで疑いの目が向けられる監視社会が待っています。

 ビデオ監視システムの急増、携帯電話の通話記録、クレジットカードによる購入履歴、スーパーのポイントカードの利用、ATMの引き出し記録、WEBサイトの訪問、電子メールの受送信、オンラインショッピング ・・・、個人に関するデータが収集されます。

 2009年のオランダのデータ保護機関の報告によれば、オランダ国民は250から500のデータベースに登録され、デジタルフットプリントが浮き彫りになっています。

 本人の気づかない間にデータが収集され、本人があずかり知らないところでデータが利用されます。ある状況で本人の確認および同意を得て収集されたデータでも、本人にとって予測不可能な弊害を及ぼします。

 人権運動への「いいね」は同性愛者の、ホンダ車への「いいね」は非喫煙者の予測指標であるという事実は、データの関連付けの有効性を示しています。

 差分プライバシーは、コンピュータを用いたプライバシー保護のアプローチ。データ収集あるいはクエリの答えにノイズを入れます。

 グーグルのフェデレーションラーニングのフレームワークは、携帯機器に初期設定でインストールされてます。ユーザーのアプリケーションのデータが収集されます。

 OECD1980年のプライバシー保護と個人データの国際流通についてのガイドライン。8つの原則。
 収集制限の原則:個人データの収集は、適法かつ公正な手段で、データ主体に通知するかその同意を得た上で行わなければならない。
 データ内容の原則:個人データは利用目的に沿ったものでなければならず、その目的に必要とされる範囲内で正確かつ完全で、最新の状態に保たなければならない。
 目的明確化の原則:個人データの収集目的は収集前に特定されなければならず、目的が変更される際も、利用はその目的の達成に限定されなければならない。
 利用制限の原則:データ主体の同意や法令に基づく場合以外は、個人データを特定された目的以外に利用してはならない。
 安全保護措置の原則:個人データを不正利用・漏洩・改竄などから保護する対策を講じなければならない。
 公開の原則:個人データの利用方針を公開し、データ管理者や個人データの所在地などを示さなければならない。
 個人参加の原則:データ管理者は、個人が自分の個人データを保有しているかを確認し、保有している場合にはそのデータの開示を求める手段を提供しなければならない。データ管理者がこれを拒否する場合は、その理由を提示し、異議申し立てを保証しなければならない。
 責任の原則:データ管理者には、以上の原則を遵守する責任を負わせるべきである。

 匿名データを利用していると主張する民間企業。難解なプライバシー契約や協議なしの契約の修正。現在の商習慣はOECDガイドラインに矛盾しています。

 世論は、政府の監視やインターネット企業による個人データの収集を否定します。2013年にはOECDガイドラインが拡大され、データ管理者の責任を明確に規定しました。2014年、欧州司法裁判所でグーグルは敗訴しました。

■ 今後の動向と成功の原則

 エビデンスに基づく医療。医療用センサーによるデータを利用した医療データサイエンス。

 スマートシティ。センサーネットワークとデータ処理センターの設置。

 データサイエンスのプロジェクトを成功させる要因。
 集中:問題が明確に定義されている。
 データ:必要なデータを理解し、質の良いデータを利用する。
 人材:データベース、ELT(抽出・変換・格納)、データ統合のスタッフ。プロジェクトマネージャー、ビジネスアナリスト、コミュニケーション力を持ったデータサイエンティスト。
 モデル:アルゴリズムを試行し、最適なアルゴリズムを発見する。
 ビジネスとの統合:どのように展開するか。モデルを業務過程に統合し活用する。
 賛同と承認:組織上層部の支援。組織の支持。
 反復:1回限りのプロジェクトではない。