放送大学の春季集中講座「情報理論とデジタル表現」を視聴しました。

 実務としてビッグデータの分析やデジタル情報の解析を行っていた私ですが、大学は文系、社会人になってすぐに「マイコン」が登場しましたが高嶺の花。そんな時代に情報理論を独学で学んできました。マーケティング分析の専門家として様々なデータを分析するだけでなく、情報量や通信量の計算式を使って業務の設計なども行ってきました。実務上の知識としては「間に合って」いますが、情報理論の「基礎」を理解しているかというと疑問があります。数学でも最も難しいのは「数学基礎論」であるように、使える/役に立っているだけでは、本当に理解しているとは言えません。今は時間があります。ちょうど良い機会ですから、情報理論の基礎を学びたいと思ったのです。

 その為には、「専門科目」ではなく「導入科目」が適切です。専門科目では具体課題の解決するための技術論になり、それは既に習得しているか、私には必要のない知識かのいずれかです。放送大学のこの分野の導入科目が設定されていて助かりました。やっぱり、基礎を理解していない所がボロボロ出てきて、それを調べてり確認したりと、基礎固めの大変良い導きとなりました。感謝!です。

 以下に、私にとってどんな「基礎」が漏れていたのかを中心に、15回の講座のタイトルに沿って簡単に述べます。


1)デジタル情報処理
2)数の符号化
3)情報理論のための数学 − 対数・行列・剰余計算

 剰余計算の情報理論中での位置づけを確認しました。

4)情報理論のための数学 − 確率論

 マルコフ過程が確率論の一つの分野であることを再認識しました。

 1〜4回は初学者用の復習です。

5)情報量

 5回と6回は「目から鱗」の連続でした。計算は出来る≒「分かった気になっていた」のですが、何にも解っていなかったことが分かって嬉しい限りでした。
 まず、シャノンの情報量の規定。情報理論では情報の意味を取り扱わず、「情報の表現」のみを扱うこと。その直接の帰結として「情報を『確率』として扱う」。そして、『生起確率』が小さいほど情報量が大きいとしました。

情報量 I(x)=-logP(x)

 情報論でのlogの基底は2。情報量はビットとなります。また、事象の確率によって総和は異なるので、情報量は保存しません。

 独立事象加法性を持ち、情報量の加法性を満たす単調減少連続関数は、

I(x)=-k・logP(x)

 の形式に限られます。また、知る順序によって、途中で得る情報量は異なります。

 情報量の体系がスッキリ整理できました。感謝!

6)エントロピー

 エントロピーが平均情報量と事象の不確定性の2つの側面を持っています。情報源Xを観察して得られる情報量の期待値は、

H(X)=-ΣP(xi)logP(xi)

 このH(X)を情報源Xのエントロピーとします。

 2つの事象の内必ず1つが生起し、一方の生起確率をpとすれば、

H(X)=-pΣlogp-(1-p)log(1-p)

 これは、事象の不確定性を表す指標となります。生起確率が等確率の場合、どの事象が起こるか予想がつかない=不確定性が最も大きくなります。知っていたけれど、情報エントロピーの全体を俯瞰できていませんでした。感謝!

7)ベイズの定理

 n個の事象Aiが同時に起こり得ず、かつ、全ての場合を含む時、Aiの1つが生じたことによってある事象Bが引き起こされるとする。Bが起きた時、それが、Aiの1つによって引き起こされる確率は、

P(Ai|B)=P(B|Ai)P(Ai) / ΣP(B|Ai)P(Ai)

 ベイズ統計の入り口として、こんな簡潔な記述に初めて接しました。コレ!私の講義でそのまま使わせて貰うことにしました。感謝!

8)通信のモデル

 7回までの内容を理解し、8回の簡潔な講義を視聴すると、シャノンの通信モデルの基本がスッキリ理解できました。感謝!

9)情報の圧縮
10)誤り検出と誤り訂正

 9〜10回では、ハフマン符号が理解できたことが収穫でした。

11)テキストの符号化
12)音の符号化
13)画像の符号化
14)動画の符号化

 個別のデジタル表現では、抜け漏れはあるものの、基礎の!はありませんでした。

15)暗号

 暗号では、ハッシュ関数についての私の理解が危うかったことが判明。基本を再確認しました。感謝!

 ハッシュ関数は、同一性は判別するが、復号はできない。だから、医療情報をマイナンバーに紐づけた時に、匿名性を維持しながら、データを突合する鍵となることができるんです。なんとなくではなく明確に理解できました。

 また、最新のハッシュ関数「SHA-3」について簡潔な説明をして頂き、そのイメージを掴むことができました。嬉しい限りです。