オモンパカリスト

深層学習、計算論的神経科学に興味あります

情報幾何の勉強。機械学習の数理的研究。

(勉強中のブログです。気をつけてるんですが厳密さに欠けることも書きがちなので、あくまで備忘録という免罪符を利用します。暖かい目でみてください。)

tl;dr

情報幾何学という分野を知った

機械学習、深層学習の仕組みを理解する一つの方法論
日本から生まれた理論体系。

ことのいきさつ

Kimらが2016に提案したEBGAN(エネルギーベースモデルにGANを応用した生成モデル)
これを実装した人がいないかググっていたところ、mathtakeさんのブログ記事と出会った。

mathetake.hatenablog.com

最新の技術EBGANでさえも、自然な画像の生成は難しいところがある。
複雑さがましブラックボックス化してしまいがちなこの分野において、
数理的な解明は精度の向上や「どうしてうまくできないか」を理解することに重要である。

mathetakeさんは微分幾何を専門にされているお方らしく、記事内で

純粋数学的な視点から「どうして難しいのか」が説明できそうなので、また時間が出来たら書いて論文の著者にぶん投げようと思います。

と仰っている。めっちゃ興味ある。

情報幾何という分野が、機械学習がどうしてうまくいくのか・いかないのかを理解するためにあると知った。
というわけで、この分野に身を投じてみることにした。

情報幾何の勉強方法

情報幾何はどうやら微分幾何という数学を用いて、情報の分野を「幾何」的に説明しようと試みた理論らしい。

この分野に入門するのにもってこいのすんばらしいまとめがありました↓

language-and-engineering.hatenablog.jp

JAISTのこのページが情報幾何の入門的な資料としてある。↓
Introductory Study of Information Geometry, Table of Contents

f:id:i101330:20161020121958p:plain
(Introductory Study of Information Geometryより図を拝借)

最初の方の説明がとくにわかりやすく、「情報幾何」がなにをしたい分野なのか、わかりやすい図とともに紹介されている。
ただ僕は微分幾何がわからないので、だんだんとこのページの厳密な数学には少しついていけなくなる。

そこで、赤穂先生による、数学の厳密性をある程度犠牲にして直感的に説明したPDFを読んだ。↓
https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdf

これはとても直感的な理解が進むPDFだった。

第一人者甘利先生の言葉をお借りして、情報幾何とは、

情報要素の一つ一つを分離して考えるのではなく,つながった全体つまり多様体として考えてそこに豊かな構造を導入すれば,情報の分野に新しい方法論を提供できるに違いない.これが情報幾何学の目指すところである

情報をのせる多様体ユークリッド空間なら話は単純だが、そうではない。
f:id:i101330:20161020122839p:plain f:id:i101330:20161020122855p:plain
(Introductory Study of Information Geometryより図を拝借)

この非ユークリッド空間の幾何を扱うために、微分幾何の知識が必要となる。
情報幾何の基礎概念 - 長岡 浩司(電通大)より引用すると、

統計学の中で Fisher 情報行列(Fisher 情報量)がおそらく20世紀前半に Fisherによって考案され、統計学的な推定理論において基本的であることが解った。一方少し統計学から離れて考えてみると Fisher 情報量は幾何学で云う Riemann 計量であることが判った。

計量、接続、測度論などと、色んな機械学習本が「本書の範囲を超えているので省略する」のでおなじみの単語ばかりでてくるが、
非常に面白い分野だと感じるので、勉強していこうと思います。

追記:
第一人者、甘利先生の講義がとてもわかりやすい。さすが。
www.youtube.com

ただしこのビデオは27:43~からアファイン接続あたりを説明した映像が途切れてしまっていて注意が必要