読者です 読者をやめる 読者になる 読者になる

オモンパカリスト

深層学習、計算論的神経科学に興味あります

生物学的妥当性のある深層学習を調査してる

Deep Learning 機械学習

Deep Learning(以下深層学習)の大家であるBengioとその研究室の人たちが
生物学的にもっともらしい(Biologically Plausible)深層学習の研究に精をだしてるっぽい。
僕自身もより忠実に脳の機能を模した深層学習に興味を持ってる。
以前から調査の雑感をこのブログで記事にしてるので合わせてみてほしい。

また、計算論的神経科学の参考書「脳の計算論」が届いたので読んでる。
第二章の「ニューロンシナプスの数学的モデル」は今までの深層学習の本には書かれていない、
様々なニューロンモデルの概要と数式が書かれていて勉強になる。

脳の計算論(シリーズ脳科学 1)

脳の計算論(シリーズ脳科学 1)

今現在Bengio達のテクニカルレポートで最新の論文は

[1602.05179] Towards a Biologically Plausible Backprop

これかな?訳すと「生物学的にもっともらしい誤差逆伝播法」

現在使われてる誤差逆伝播法は脳では行われていない。
本稿ではSTDP(スパイク時刻依存シナプス可塑性)の現象を考慮できるニューロンモデルで
ニューラルネットワークを実装し、STDPによる学習則を用いる、というもの。

YoutubeでBengioのTalkビデオが公開されてるぜ、やったぜ!

www.youtube.com

ただ、エグいくらい低画質で肝心なスライドがみれたもんじゃないが、
動画の説明欄からスライドの資料を取得できる、やったぜ!

ニューロンモデルについて。

McCulloch&Pittsモデル

現在の深層学習で用いられるニューロンモデルは、
コネクショニストモデルというモデルが基になっている。
スパイクの発生時刻を精密に再現せず、マクロの観点で平均発火頻度を変数に考慮したモデルであり、
みんなが見慣れた数式、重み付き線形和に活性化関数を通したアレ。
y = f(Wx)
本モデルの一つMcCulloch&Pittsモデルは、重み(パラメータ)の更新を誤差逆伝播法で行えるのが強み。

leaky integrator

ここで、STDPによる学習則を考慮するため、別のモデルをBengio達は用いる。
それがleaky integratorである。上述の論文、スライド資料にある。
「脳の計算論」にはleaky integarte-and-fireモデルという名称のものがあり、
これのことかな?と思ってる。違ったらすみません。

神経細胞をかなり精密に記述しているモデルに
ホジキン-ハクスレイ(Hodgkin-Huxley)モデルがある。
その中の「ナトリウム、カリウムによる発火の効果」に該当する項を除外したモデルが
leaky integrate-and-fireモデルになる。
神経細胞の膜電位の時間変化を表すモデルになっている。

STDPについて

用語説明。シナプスニューロンってのは、信号を送る側のニューロン
シナプスニューロンってのは、信号の受け手側のニューロンのこと。

脳は特に教えられなくても下界の構造を自動的に学習できる。
そのメカニズムの本質は、シナプス前細胞とシナプス後細胞の活動度に依存して
シナプスが結合荷重を変化させる、シナプス可塑性という性質をもっているからである。

教師付き学習は、生物学的にも小脳の運動学習の定式化において成功を収めている。
いっぽう大脳皮質は単純な前向きの入力信号だけでなくフィードバック入力も存在し、
1つのシナプスの荷重変化が回路全体に及ぼす影響を明らかにすることが難しい。
そんな複雑なネットワークの学習原理を考察し、シナプス可塑性を理論的に導き出したのがヘブ(Hebb)である。

Hebb則は、シナプスニューロンの発火がシナプスニューロン発火に貢献している場合、そのシナプス荷重を強める。
この理論は弱めるということも付け加えたら正しい。

このシナプス学習則は、スパイク時間に依存していることがわかる。(STDP: スパイク時刻依存シナプス可塑性)
そのためBengio達はleaky integratorモデルを利用する。

僕が取り組んでること

先のBengioのスライド、論文を読みつつ、理解できない勉強不足なとこをトップダウン的に勉強してる。
「脳の計算論」のおかげで、ニューロンモデルが違う今までにない切り口であってもある程度理解できている。
ただ、論文中にランジュバンMCMC(マルコフ連鎖モンテカルロ法)やボルツマンマシンのインスパイヤがみられるので、
紫本「深層学習」のマルコフ連鎖、ボルツマンマシンあたりを勉強しようと思う。
Theanoの実装力をつけたいし、
Theano 入門
がちょうど制限ボルツマンマシンの実装チュートリアルでもあるので、勉強がてらにやってみようかな。

そしてBengio達の論文を漁るのを、7月いっぱいまでやってみようと思う。

ReLUについて

McCulloch&Pittsモデル、誤差逆伝播法ときて構築されたニューラルネットワークは、
深層になるにつれて勾配消失問題に悩んだが、
活性化関数ReLUにより再びブレイクスルーを起こす。
過学習対策のDropOutとのコラボレーションが主流になってる。
ReLUは計算速度も早いのが強い。

そんなReLUは、つまり誤差逆伝播法のためにあるようなもので、
Biologically Plausibleな取り組みではまず禁じ手になる。

あんまり精読できていないからわからんけど、
Biologically Plausibleは、実用的な面で計算速度においても従来の深層学習法に対抗できたらいいなぁと思ってる。
遅そうだし。精読できてないから先入観だけど。
実用面がないと、生物学的妥当性があってもなぁ、という世間からの反応がきそうだから、
あらゆる点で従来の方法に取って代わるようなブレイクスルーを起こしてくれることを、
Biologically Plausibleの取り組みに期待してる。