平均場方程式の導出¶
ニューロン \(i\) の初期値 \(\sigma_k^i(0)\) とその更新のランダム性と初期値 \(\bm \sigma\) に 関する平均を \(\AvgDyn{\bullet}\) [1] と書き, ニューロン \(i\) の(局所)活動率を
と定義する.
[1] | 初期値 \(\bm \sigma\) に関する平均とは, 時刻 0 での集団活動率 \(m_k(0)\) が \(\sigma_k^i(0)\) が 1 の確率で, それぞれの \(i\) について \(\sigma_k^i(0)\) が独立, という確率分布に関する平均である. |
課題
他の場所では, \(\AvgDyn{\bullet}\) は使われていない. 使うべき? 例えば, 他の場所では \(m_k = \PAvg{\sigma_k^i}\) だけど, ここでは \(m_k = \PAvg{\AvgDyn{\sigma_k^i}}\) である.
ニューロン \(i\) への入力が閾値を超える確率 [2] は, 更新時間のランダム性に関する平均 \(\AvgDyn{\Theta(u_k^i (t))}\) で表すことが出来る. [3] さらに, 更新のタイミングはポアソン過程で表され, 入力が閾値を超えていた場合に状態 1 へ遷移する単位時間当たりの条件付き確率は, \(1 / \tau_k\) である. こられらを合わせると, 単位時間あたりにニューロン \(i\) が状態を 1 に遷移する確率は \(\AvgDyn{\Theta(u_k^i (t))} / \tau_k\) で与えられていることが分かる. 期待値の時間発展 の関係式を用いれば,
と書くことができる.
[2] | 正確には, 系の状態 \(\bm \sigma\) が与えられた時の条件付き確率, である. |
[3] | 確率変数 \(X\) について事象 \(X \in A\) が起こる確率は指示関数 (indicator function) \(1_A(X)\) を用いて \(\Prob \{ X \in A \} = \Expect \{1_A(X)\}\) と書けることを思い出そう. |
この式の集団平均をとる (つまり両辺に \(\PAvg{\bullet}_i\) を施す) と, 集団活動率 \(m_k\) のダイナミクスを表す式
を得る. この節では, 右辺第二項
を計算する. 素朴に考えれば右辺は系の微視的な状態 \(\bm \sigma\) に依存しているはずだが, 左辺は巨視的な状態, つまり集団活動率 \(m_k\) のみに依存することを主張している. この微視的な状態への非依存性は \(F_k(m_E, m_I)\) の計算の過程で自動的に出てくる結果である.
確率 \(F_k(m_E, m_I)\) は以下の仮定 [4] のもとで計算することが出来る.
仮定
すべてのニューロンの活動が無相関である.
形式的に書けば, いかなるふたつのニューロン \((i, k)\) と \((j, l)\) (\(k, l \in \{E, I\}\), \(i = 1, \ldots, N_k\), \(j = 1, \ldots, N_l\)) についても, それぞれの活動 \(X = \AvgDyn{\Theta(u_k^i (t))}\), \(Y = \AvgDyn{\Theta(u_l^j (t))}\) はすべての時間 \(t\) について無相関, つまり,
が, 成り立つ.
[4] | 原著 [vanVreeswijk1998] での仮定は「すべてのニューロンについて, それに結合しているすべてのニューロンの活動が無相関である」であり, 本稿で使っている仮定より若干弱い. しかし, 無相関性の「証明」 より本稿で使っている仮定は [vanVreeswijk1998] の仮定と同じ条件 \(K \ll \log N\) で成り立つことが分かる. さらに, すべてのニューロンが無相関でなければ, 無相関変数に対する大数の法則 が使えない (自己平均性 (self-averaging property) を参照). |
これは, \(K \ll \log N\) が成り立てば成り立つ. 詳しい議論については, 無相関性の「証明」 を参照.
自己平均性 (self-averaging property) を \([\Theta(u_k^i (t))]_i\) の計算に適用すれば, \([\bullet]_i\) と \(\AvgJ{\bullet}\) を交換することが出来て,
を計算すれば良いことが分かる.
ニューロン \(i\) が \(n_E(t)\) 個の興奮性ニューロンと \(n_I(t)\) 個の抑制性ニューロンから入力を受けているとすれば, その全入力は
となる. 確率 \(F_k(m_E, m_I)\) はこの入力が正である確率であり,
となる. ただし, \(p_l (n_l | m_l)\) は集団 \(l \in \{E, I\}\) の活動率が \(m_l\) の時にニューロン \(i\) が集団 \(l\) から \(n_l\) 個の入力を受ける確率であり,
となる. ここで, (P1) は集団 \(k\) のニューロン (どのニューロンでも成立する) が集団 \(l\) の \(s\) 個のニューロンからの結合を持つ確率であり, (P2) はその \(s\) 個のニューロンのうち \(n\) 個のニューロンが活動している (\(\sigma_l^j = 1\) である) 確率である. 最後の等式は, \(\exp\) の定義に基づけば、以下の計算で確認できる.
この確率分布は平均と分散が \(m_l K\) の ポアソン分布 (Poisson distribution) なので, 極限 \(K \to \infty\), つまりこの平均と分散が大きな極限では ガウス分布 (Gaussian distribution)
で近似できる. この極限 \(K \to \infty\) で,
と計算できる. ここで,
である. 上記の \(u_k\) と \(\alpha_k\) はただ変数に名前をつけただけだが, これらの物理的意味については 入力のゆらぎ を参照せよ. \(Dx\) は ガウス測度 (Gaussian measure) と呼ばれるただの省略記号である. 関数 \(H(z)\) は Q関数 と呼ばれる関数である. 上の計算では, (1) \(n_l \approx m_l K + x_l \sqrt{m_l K}\) なる近似と ガウス確率変数の変数変換, (2) \(u_k\) の定義, (3) ヘヴィサイド関数の多重ガウス積分とQ関数 の関係, (4) \(H(z)\) の定義をそれぞれ用いた.
無相関性の「証明」¶
以下の議論は [Derrida1987] に依る.
今, 初期状態から \(n\) 回の更新が起こったとする. いかなるニューロンも, \(n\) 回の更新の前まで遡れば最大でも \(K^n\) 個 [5] のニューロンの初期状態に依存している. 2つのニューロンから伸びる「木」はそれぞれ平均で \(K^n\) の「枝」をもつ. この中で最低でも1つの枝が同じニューロンに繋がっている確率は, (1) 2つの木からそれぞれの1つの枝を選ぶ方法の総数と, (2) 1つのニューロンの選び方の総数と, (3) ある1つのニューロンを2回選ぶ確率の積なので,
となる. これが 0 に漸近する, つまり \(p \ll 1\) (as \(N \to \infty\)) という条件から, \(K^n \ll \sqrt N\) が導かれる. いかなる自然数 \(n\) でもこれが成り立つには \(K \ll \log N\) であれば十分である.
[5] | ただし, 各ニューロンの結合の数が平均 \(K\) 個のまわりでゆらいでいる効果は無視している. |