「テキストマイニング概論」 石井徹 2022年 東洋経済新報社

 ベクストの石井さんのテキストマイニング論。そりゃあ〜読むでしょう。読後感は、石井さんも年を取ったな〜〜、です。入門書としてはまあまあなんですが … それより、年寄りの思い出話に共感してしまう ← そうか!私が年寄りだからか !(^^)! 以下は、この本の要約と引用です。


《0.はじめに》

 1996年に概念検索エンジンVextSearch、2000年にVextMinerを発表。

 Vextは、Vector indexed Textの略。テキストの特徴をベクトルで表現したものという意味である。

テキストマイニングの基本概念

《1.テキストマイニングとの出会い》

 自然言語処理が1970年代の形態素解析エンジンの開発をその始まりとしている。2013年にGoogleからWord2Vecが発表される。単語をベクトル化し、単語同士の類似性など、単語間の演算を行い、単語の意味を捉えている。これは、1994年に開発されたContext Vectorと同じ考え方である。

 2000年頃、CTIシステムの普及により大量の応対履歴が蓄積された。VOCを起点とする活動が始まった。

《2.テキストマイニングとは》

 「技術上の知恵を生み出す人と、その技術がどのような害と益をもたらすかを判断する人は別の者なのだ。… あなたがこれを学ぶ人たちに与える知識は、知恵の外見であって知恵ではない。彼らは物知りになって … 己惚れるだけだ」プラトン『パイドロス』。

 テキストマイニングは、分類することによって、事象に対する理解を獲得する。「分ける」と「解る」に通じる(理解したように感じるだけのことも多いが)。

《3.テキストマイニングの基本手法》

 構文解析によるテキスト分析は、チョムスキー言語学に端を発する。但し、係り受けの頻度分布でを見ても、何も判断できない。還元論のアプローチに無理がある。文書の構成要素である単語や係り受けを見ても文意は解らない。

 文の特徴量を抽出する。ではその特徴量とは何か?意味を理解する上で基盤となる「文章間や単語間の関連性」を定量化する。

 言語モデルは、文単位でデータを処理する。ベクトル空間法と言語モデルによって分析システムが開発される。言語モデルは、単語間の共起性/連想が基盤となっている。

 言語モデルのN-gramは、C.シャノンが考案。単語間の共起確率を内積値で表すベクトルを求める。多数の未知数を最小二乗法で解く。280次元で単語間の関連性(内積値)を表す。各次元は、概念に相当する。こうして言語モデルは、単語間の関連性を解き明かし、実用手法である。

 共起確率の高い語群で構成されている文書ベクトル同士は、高い関連性を持ち概念が似ているものを集めることができる。K-means法によるクラスタリングを行う。

 アンケート調査の自由文の分析は二日間の徹夜が常識。自由文のデータは200件までと制限されていた。他人がデータを整理してくれると、発想力が刺激される。叩き台があると新しい発想が湧いてくる。こうして、データを整理した人の苦労は報われる?システムは整理作業を、人は視点の気づきに専念する。

 Booleanにより、話題別に細分化された分類を作成する。代表文書を読み、重要な単語とその寄与を参照して、分類を進める。階層型の分類とするすこともある。

 3件以上の人が同じ内容ならば、「そこに何かがある」と判断し深堀をする。

 いかなる分析ソフトも分析者の意図無しに価値ある結果は出せない。

《4.会話分析》

 会話データはDLの音声認識技術がもたらしたもの。2014年頃から会話分析手法への要求が高まった。

 会話データの前処理は、不要表現の削除と対話状態のデータ区切り。

 シナリオ型の知識の抽出(文脈分析機能)=カテゴリー(内容)の推移のパターン。遷移パターン群をカテゴライズすることで、文脈フローを抽出する。

 オペレータをリアルタイムで支援する機能は、チャットシステムでの自動応答機能と連携する。音声マイニングは今後さらに発展していくだろう。

テキストマイニングのビジネス活用

《5.顧客の声を経営に生かす》

 ジャック・ウェルチ氏は称賛と批判の対象とされる。株式価値を高める選択と集中は、GEの株価を30倍にした。リーマンショックで膨大な負債を負い、金融事業を中核としたGEは衰退した。ドラッカーが指摘するまでもなく、ビジネスの基本は顧客の創造と維持である。企業の存亡は株価ではなく顧客(顧客に提供し得る価値)で決まる。

 少数の顧客(クレーマーなど)が引き起こす予測不可能なトラブルは制御不能。週次で3件以上を抽出し監視する。予兆の重要性は発見した時点ではわからない。対応をあり得るリスクに応じて判断する。

《6.実務における活用事例》

 2019年、厚労省は製薬会社のMRの行う活動に関する規制「販売情報提供ガイドライン」の運用を開始。MRの日報をチェックし、教師データに基づいてコンプライアンス評価を行っている。

 音声認識に付随する感情分析。イントネーションや周波数成分の変化を捉えて感情をスコアとして出力する。

知識への展開

《7.AIと知識の時代を切り拓くテキストマイニング》

 眼が誕生したのは5億年前。原子生物は僅かな脳細胞を使って、画像認識機能を獲得した。画像認識は高い知能を必要としない。

 自動回答システムには、確実な回答ができるものだけを回答させ、閾値以下のものは「わからない」と答え、オペレーターに依頼する。

《8.今後の展望》

 ダーウィン自身は自然に対して極めて謙虚であったのと対照的に、ダーヴィニスト達は「自然淘汰と突然変異」だけを金科玉条のごとく崇拝した。「比類ない仕組みを備えている眼が、自然淘汰によって形成されたとは考えるのは無理があるように思われる」チャールズ・ダーウィン『種の起源』。

 言語モデルは、「事前言語のトークンのシーケンスにわたる確率分布を計算するためのモデル」である。言語の世界をベクトル空間で表現するものえある。意味は解らないけれど、関連性を見出すことから言語モデルの進化が始まった。

 チョムスキーの普遍文法はいまだに確認されていないが、共起情報に基づく言語モデルは普遍文法を構成する要素だと考えられる。

 表現が似ているものを判別する機能と、意味が近いものを判別する機能は異なる。共起情報に基づく言語モデルは、第一世代である。第三世代の言語モデルは、自律システムだ。自動判別能力により、人間に対して自立した支援ができる。

 最終ゴールは、CS(顧客満足)とES(従業員満足)の最大化である。