「情報研シリーズ24 ビッグデータが拓く医療AI」
佐藤真一・村尾晃平・二宮洋一郎・他 2021年 丸善ライブラリー 

 薬学部で医療ビッグデータの解析を教えているんだから、読んでおかないとイケナイ一冊でした。参考にさせて頂きます!ありがとうございました。


■ はじめに

 人口増加と経済成長を前提とした社会基盤や制度を維持しようとするのは現実的ではありません。

 国立情報学研究所(NII)は、2017年に医療ビッグデータ研究センターを設立しました。

■ AIは医療分野の頼もしい助っ人になる

 診断装置はモダリティと呼ばれますが、日本の医療機関は所有率が高いことで知られています。日本は画像診断医が極端に不足しています。一人もいない病院も数多くあります。

 最近の先端研究分野は、診断支援AI。電子医療記録(EHR)もとにした、総合診断です。ゲノム解析・画像診断・医師所見と合わせた総合診断です。

 イスラエルでは全ての患者データを国の機関が一元管理しています。英国では、診療報酬に関するデータが国民保健サービス(NHS)の下で一元管理されています。全土の医療機関ののデータをNHSが全て把握されています。日本には、医療データを一元管理する仕組みがありません。

■ 医療AIのカギは画像認識が握る

 セマンティックとは「意味」。画像情報の場合は画像の中の特定のものの名称や事象、文書情報の場合は文脈の中で推定される物や事象をセマンティック情報と呼びます。情報についての情報(メタデータ)を付加することで、意味を理解しているように振舞えます。

 パーセプトロン・モデルでは、線形分離可能な問題しか解くことができません。

 人間の判断の多くは「直感」。論理で解くだけのAIには現実の問題を解くことはできませんでした。

 エキスパート・システムの知識の獲得と規定の作成と保守には膨大な作業と費用が必要で、しかも際限がありません。専門家にヒアリングしてルールを矛盾の無いように整理する。経験に裏打ちされた勘を明示的に記述するのは困難です。

 ロボットは予め枠(フレーム)を作って、その中で考えることしかできません。臨機応変に対処することはできません。

 ECサイトのレコメンドシステムは、エキスパート・システムの発展型。Webに蓄積された知識を背景に、エキスパート・システムは別の形で蘇ったと言えます。

 1981年、ロボット研究者ロドニー・ブルックスが万能3Dシーン認識システムを発表します。ブルックスは「ルンバ」の生みの親です。しかし、簡単な場面の解析にも多くのルールを記述する必要があり、かつそのルールの作成も困難であることが判明します。

 多層パーセプトロンによる誤差逆伝播法により、非線形問題の学習が可能になりました。教師あり学習を用いるパターン認識モデルが見出され、機械学習ブームが起きます。1967年に甘利俊一教授が開発した確率的最急降下法が、誤差伝播法の起点となっています。

 機械学習は、機械自身が自ら学習することで「汎化」能力を獲得します(学習し推論する機械)。学習とは分けること。データをルールやパターンごとに分けて、その分け方を自動に習得し、それをもとに未知のデータを処理するやり方(予想モデル)を獲得します。

 深層学習のアルゴリズムでは、情報を圧縮した数値の組(テンソル)を作ります。これが深層学習における特徴量です。深層学習では特徴量を人間が定義する必要はありません。課題が多少異なっても、同じニューラルネットの構造を使えるようになりました。

 研究者が学習に必要なデータを集めることは困難です。研究のためのデータが用意されていることは研究開発の欠かせない条件です。

 深層学習の画僧処理は、NHK放送技術研究所の福島邦彦氏が唱えたネオコグニトロンが元になっています。第一次視覚野に着想を得たものです。動物の脳は、目から得た情報の全体像の全体を一度に把握するのではなく、対象物の局所ごとの特徴を記録し伝達し、それを足し合わせることで全体を認識していきます。この仕組みを模すことでパターン認識が可能になります。この考え方を発展させたのが「畳み込みニューラルネットワーク」です。

 その場で何が写っているかを一気に分類し、対象物の動きを追随して検出できるようにもなりました。ですが、実空間での画像認識はまだ困難な部分があります。

 画像と言葉を連携させた「画像キャプショニング」。画像を説明する文書を説明する機能です。診断画像からカルテを作成することも可能になります。

 「敵対的生成ネットワーク」によって、フェイク画像や映像を簡単に生成できるようになりました。

■ NIIの医療ビッグデータ研究センターの挑戦

 データマイニングの時代、データの収集と整理に9割、計算は1割と言われましたが、AIの時代になってもそれは変わりません。

 深層学習の場合、出力の精度は、優れた正解データを適切に与えられるかどうかにかかっています。腫瘍の範囲はどこまでか、腫瘍の核はどこか、アノテーション(注釈)をつけることが必要です。

 2017年、医療画像解析のハブとして、医療ビッグデータ研究センターを設立。医療系の学会の協力を得て、画像診断データを収集しています。

■ 個人情報保護法と医療データのややしこさを超えて

 カルテ記される病歴などは「要配慮個人情報」に位置づけられています。医療情報の取得の際には事前に本人の同意を得ることが必要になります。その情報を利用する際には、利用目的を説明することが前提になります。

 日本にはプライバシーに関する明文規定はありませんが、「他人に知られてたくないものを公開されない権利」という判例があります。

 EUや米カリフォルニア州などでは、クッキーやIPアドレス、端末識別子も個人情報として扱います。個人情報の範囲は広がっています。

 2021年に、懸案だった個人情報に関する民間事業者、行政機関、独立行政法人の法と条例の一元化の一部が実現しました。個人情報保護委員会が一元的に所管するすることになりました。

 また、学術研究に係る適用除外規定が見直されました。学術コミュニティには、自主規範の作成が求められ、「個人の権利利益を不当に侵害するおそれがある場合を除く」という条件がつけられました。何をしてもいいというと理解が一部にあったためです。

 EUと多国間のデータ移転については、欧州委員会がデータ移転先の国が十分な個人情報保護を保障していることを前提を許可しています。日本との間には2019年に「十分性認定」が発効しました。

 2020年の改正法では「仮名加工情報」が創設されました。2017年には、「匿名加工情報」が新設されています。仮名加工情報は、利用目的の特定や本人の同意を得ることなく、自由に利活用できます。但し、同意なしの第三者提供はできません。匿名加工情報は、本人の同意なしで第三者提供ができます。

 匿名加工医療情報は、医療データの第三者提供を前提としています。但し、オプトアウト制限が課せられています。また、匿名加工を行う事業者や情報を外部に提供する業者は、大臣認定を受ける必要があります。

 法律専門家は「判断した理由を説明できなければ信頼される医療AIとはならない」という考え方があります。

 ニューラルネットワークと隠れマルコフモデルは、理論的には同じもの。なぜその答えをだしたのか、理由を聞けるようになるかもしれません。

 研究者は、個人情報の保護と活用のバランスをとるというのではなく、その対立を解消することを考えるべきです。個人情報を保護することにより、安心して個人情報を提供できるようにし、個人情報の質も高まり、研究も推進されます。

 法制度では「立法事実」、現状法制度では解決できない問題が起きた時に法制度の変更を行います。将来起きるかもしれない問題に想像で対応することはできないからです。

■ 未来の医療に向けて − 対談 永井良三×喜連川優

 日本の医療データの活用は難しい状況にあります。カルテの病院間や薬局間の連携はできていないし、レセプトも月ごと診療機関ごとの集計になっています。日々の新型コロナウィルス感染症の患者者数を自動で算出することもできません。一つの病院の中でのデータ統合ですら追いついていません。

 日本の医療機関の多くは民間組織ですが、医療費は国が管理しています。この医療システムは経済が成長しているときは機能します。ですが、低成長下で人口が減っているときには医療機関の整理が必要になります。しかし、市場原理でもなく国家管理でもない社会システムは、当事者の話し合いで解決するしかありません。人口減少という「撤退戦」を強いられる日本では、データに基づく議論が重要になります。

 社会の複雑化により、支配方程式が明らかでない場合が増えました。データ駆動科学(データサイエンス)に頼らざるを得ません(計算科学からデータ科学へ)。

 大規模臨床試験が脚光を浴びたのは1980年代。理論で導かれた治療が、臨床では結果が悪い。根拠のあるデータに基づいた治療(EBM)につながりました(理学から実学へ)。

 治療の効果が統計でわかるようになると、わずかではあっても治療の評価が示せるようになりました。エビデンスがとれればわずかな差でも市場を席巻する薬が出せます。コレステロール低下薬は世界中で使われ、ブロックバスターになりました。

 日本には大規模な臨床研究をやってデータを集める基盤も財源も体制もありません。データの維持管理のためのデータマネジメント、そのための資金や人材や仕組み。どれをとっても日本が後手に回っています。情報科学で日本が大きく遅れています。

 データの共有が一番のボトルネックになっています。データは競争財であると同時に公益財でもあります。大事なのはデータガバナンスです。研究開発が持続可能なエコシステムを作らなければなりません。

 教師なしで知識を獲得するAIを作ることが、これからのテーマになります。

 AIでテキストの「意味」を扱うのも難しいテーマです。コーパス(自然言語の文章を構造化して大規模に集積したもの)と辞書で、翻訳はできます。意味を考えて翻訳しているわけではありません。意味を捉える前段として、文脈の理解が必要です。

 国際医療用用語電子カルテのための標準用語を整理したSNOMED-CTは、30ヶ国以上が参加する世界最大の医学用語集。

 臨床医学は不確実な世界の中でも答えを出す必要に迫られます。真理を追究する学術とは異なります。

■ おわりに

 医療ビッグデータ研究センターは、連携の場、ハブとしての役割を担うと考えています。