\(\newcommand{\D}{\text{d}} \newcommand{\I}{\text{i}} \newcommand{\E}{\text{e}} \newcommand{\Prob}{\mathbb{P}} \newcommand{\Expect}{\mathbb{E}} \newcommand{\Var}{\text{Var}} \newcommand{\PAvg}[1]{\left[#1\right]} \newcommand{\Avg}[1]{\left\langle#1\right\rangle} \newcommand{\AvgJ}[1]{\Avg{#1}_{\bm J}} \newcommand{\AvgDyn}[1]{\Avg{#1}_{\text{dyn.}}} \newcommand{\CAvg}[2]{\Avg{#1}_{\left|#2\right.}} \newcommand{\Devi}{\mathfrak{d}}\)

平均場方程式の導出

ニューロン \(i\) の初期値 \(\sigma_k^i(0)\) とその更新のランダム性と初期値 \(\bm \sigma\) に 関する平均を \(\AvgDyn{\bullet}\) [1] と書き, ニューロン \(i\) の(局所)活動率を

\[m_k^i (t) = \AvgDyn{\sigma_k^i(t)}\]

と定義する.

[1]初期値 \(\bm \sigma\) に関する平均とは, 時刻 0 での集団活動率 \(m_k(0)\)\(\sigma_k^i(0)\) が 1 の確率で, それぞれの \(i\) について \(\sigma_k^i(0)\) が独立, という確率分布に関する平均である.

課題

他の場所では, \(\AvgDyn{\bullet}\) は使われていない. 使うべき? 例えば, 他の場所では \(m_k = \PAvg{\sigma_k^i}\) だけど, ここでは \(m_k = \PAvg{\AvgDyn{\sigma_k^i}}\) である.

ニューロン \(i\) への入力が閾値を超える確率 [2] は, 更新時間のランダム性に関する平均 \(\AvgDyn{\Theta(u_k^i (t))}\) で表すことが出来る. [3] さらに, 更新のタイミングはポアソン過程で表され, 入力が閾値を超えていた場合に状態 1 へ遷移する単位時間当たりの条件付き確率は, \(1 / \tau_k\) である. こられらを合わせると, 単位時間あたりにニューロン \(i\) が状態を 1 に遷移する確率は \(\AvgDyn{\Theta(u_k^i (t))} / \tau_k\) で与えられていることが分かる. 期待値の時間発展 の関係式を用いれば,

\[\tau_k \frac{\D}{\D t} m_k^i (t) = - m_k^i (t) + \AvgDyn{\Theta(u_k^i (t))}\]

と書くことができる.

[2]正確には, 系の状態 \(\bm \sigma\) が与えられた時の条件付き確率, である.
[3]確率変数 \(X\) について事象 \(X \in A\) が起こる確率は指示関数 (indicator function) \(1_A(X)\) を用いて \(\Prob \{ X \in A \} = \Expect \{1_A(X)\}\) と書けることを思い出そう.

この式の集団平均をとる (つまり両辺に \(\PAvg{\bullet}_i\) を施す) と, 集団活動率 \(m_k\) のダイナミクスを表す式

\[\tau_k \frac{\D}{\D t} m_k (t) = - m_k (t) + \PAvg{\AvgDyn{\Theta(u_k^i (t))}}_i\]

を得る. この節では, 右辺第二項

\[F_k(m_E, m_I) := \PAvg{\AvgDyn{\Theta(u_k^i (t))}}_i\]

を計算する. 素朴に考えれば右辺は系の微視的な状態 \(\bm \sigma\) に依存しているはずだが, 左辺は巨視的な状態, つまり集団活動率 \(m_k\) のみに依存することを主張している. この微視的な状態への非依存性は \(F_k(m_E, m_I)\) の計算の過程で自動的に出てくる結果である.

確率 \(F_k(m_E, m_I)\) は以下の仮定 [4] のもとで計算することが出来る.

仮定

すべてのニューロンの活動が無相関である.

形式的に書けば, いかなるふたつのニューロン \((i, k)\)\((j, l)\) (\(k, l \in \{E, I\}\), \(i = 1, \ldots, N_k\), \(j = 1, \ldots, N_l\)) についても, それぞれの活動 \(X = \AvgDyn{\Theta(u_k^i (t))}\), \(Y = \AvgDyn{\Theta(u_l^j (t))}\) はすべての時間 \(t\) について無相関, つまり,

\[\lim_{N \to \infty} \AvgJ{ \left( X - \AvgJ{X} \right) \left( Y - \AvgJ{Y} \right) } = 0\]

が, 成り立つ.

[4]原著 [vanVreeswijk1998] での仮定は「すべてのニューロンについて, それに結合しているすべてのニューロンの活動が無相関である」であり, 本稿で使っている仮定より若干弱い. しかし, 無相関性の「証明」 より本稿で使っている仮定は [vanVreeswijk1998] の仮定と同じ条件 \(K \ll \log N\) で成り立つことが分かる. さらに, すべてのニューロンが無相関でなければ, 無相関変数に対する大数の法則 が使えない (自己平均性 (self-averaging property) を参照).

これは, \(K \ll \log N\) が成り立てば成り立つ. 詳しい議論については, 無相関性の「証明」 を参照.

自己平均性 (self-averaging property)\([\Theta(u_k^i (t))]_i\) の計算に適用すれば, \([\bullet]_i\)\(\AvgJ{\bullet}\) を交換することが出来て,

\[F_k(m_E, m_I) \approx \AvgJ{\AvgDyn{\Theta(u_k^i (t))}}\]

を計算すれば良いことが分かる.

ニューロン \(i\)\(n_E(t)\) 個の興奮性ニューロンと \(n_I(t)\) 個の抑制性ニューロンから入力を受けているとすれば, その全入力は

\[u_k^i (t) = \sqrt K J_{k0} m_0 + \frac{J_{kE}}{\sqrt K} n_E (t) + \frac{J_{kI}}{\sqrt K} n_I (t) - \theta_k\]

となる. 確率 \(F_k(m_E, m_I)\) はこの入力が正である確率であり,

\[\begin{split}F_k(m_E, m_I) &\approx \sum_{n_1, n_2 = 0}^\infty p_1(n_1 | m_1) \, p_2(n_2 | m_2) \, \Theta \left( \sqrt K J_{k0} m_0 + \sum_{l=1,2} \frac{J_{kl}}{\sqrt K} n_l - \theta_k \right) \\\end{split}\]

となる. ただし, \(p_l (n_l | m_l)\) は集団 \(l \in \{E, I\}\) の活動率が \(m_l\) の時にニューロン \(i\) が集団 \(l\) から \(n_l\) 個の入力を受ける確率であり,

\[\begin{split}p_l (n | m_l) & \approx \sum_{s=n}^\infty \underbrace{ \frac{K^s}{s!} \E^{-K} }_{\text{(P1)}} \underbrace{ \begin{pmatrix} s \\ n \end{pmatrix} (m_l)^n (1 - m_l)^{s-n} }_{\text{(P2)}} \\ & = \frac{(m_l K)^n}{n!} \E^{-m_l K}\end{split}\]

となる. ここで, (P1) は集団 \(k\) のニューロン (どのニューロンでも成立する) が集団 \(l\)\(s\) 個のニューロンからの結合を持つ確率であり, (P2) はその \(s\) 個のニューロンのうち \(n\) 個のニューロンが活動している (\(\sigma_l^j = 1\) である) 確率である. 最後の等式は, \(\exp\) の定義に基づけば、以下の計算で確認できる.

\[\begin{split}& \sum_{s=n}^\infty \frac{K^s}{s!} \E^{-K} \begin{pmatrix} s \\ n \end{pmatrix} (m_l)^n (1 - m_l)^{s-n} \\ & = \sum_{s=n}^\infty \frac{K^s}{s!} \E^{-K} \frac{s!}{n! (s-n)!} (m_l)^n (1 - m_l)^{s-n} \\ & = \frac{\E^{-K} (K m_l)^n}{n!} \sum_{s=n}^\infty \frac{K^{s-n}}{(s-n)!} (1 - m_l)^{s-n} \\ & = \frac{\E^{-K} (K m_l)^n}{n!} \E^{K \, (1-m_l)} \\ & = \frac{(K m_l)^n}{n!} \E^{-K m_l}\end{split}\]

この確率分布は平均と分散が \(m_l K\)ポアソン分布 (Poisson distribution) なので, 極限 \(K \to \infty\), つまりこの平均と分散が大きな極限では ガウス分布 (Gaussian distribution)

\[\frac{1}{\sqrt{2 \pi m_l K}} \exp \left( - \frac{(n_l - m_l K)^2}{2 m_l K} \right)\]

で近似できる. この極限 \(K \to \infty\) で,

\[\begin{split}F_k(m_E, m_I) & = \sum_{n_1, n_2 = 0}^\infty p_1(n_1 | m_1) \, p_2(n_2 | m_2) \, \Theta \left( \sqrt K J_{k0} m_0 + \sum_{l=1,2} \frac{J_{kl}}{\sqrt K} n_l - \theta_k \right) \\ & \overset{(1)} \approx \int Dx_1 \, Dx_2 \, \Theta \left( \sqrt K J_{k0} m_0 + \sum_{l=1,2} \frac{J_{kl}}{\sqrt K} (m_l K + x_l \sqrt{m_l K}) - \theta_k \right) \\ & \overset{(2)} = \int Dx_1 \, Dx_2 \, \Theta \left( u_k + \sum_{l=1,2} x_l J_{kl} \sqrt{m_l} \right) \\ & \overset{(3)} = \int Dx \, \Theta (u_k + \sqrt{\alpha_k} x) \\ & \overset{(4)} = H \left( \frac{- u_k}{\sqrt{\alpha_k}} \right)\end{split}\]

と計算できる. ここで,

\[\begin{split}Dx & := \D x \exp(-x^2) / \sqrt{2 \pi} \\ u_k & := (J_{k0} m_0 + J_{kE} m_E + J_{kI} m_I) \sqrt K - \theta_k, \\ \alpha_k & := (J_{kE})^2 m_E + (J_{kI})^2 m_I \\ H(z) & := \int_z^\infty \frac{\D x}{\sqrt{2 \pi}} \exp(- x^2 / 2)\end{split}\]

である. 上記の \(u_k\)\(\alpha_k\) はただ変数に名前をつけただけだが, これらの物理的意味については 入力のゆらぎ を参照せよ. \(Dx\)ガウス測度 (Gaussian measure) と呼ばれるただの省略記号である. 関数 \(H(z)\)Q関数 と呼ばれる関数である. 上の計算では, (1) \(n_l \approx m_l K + x_l \sqrt{m_l K}\) なる近似と ガウス確率変数の変数変換, (2) \(u_k\) の定義, (3) ヘヴィサイド関数の多重ガウス積分とQ関数 の関係, (4) \(H(z)\) の定義をそれぞれ用いた.

無相関性の「証明」

以下の議論は [Derrida1987] に依る.

今, 初期状態から \(n\) 回の更新が起こったとする. いかなるニューロンも, \(n\) 回の更新の前まで遡れば最大でも \(K^n\)[5] のニューロンの初期状態に依存している. 2つのニューロンから伸びる「木」はそれぞれ平均で \(K^n\) の「枝」をもつ. この中で最低でも1つの枝が同じニューロンに繋がっている確率は, (1) 2つの木からそれぞれの1つの枝を選ぶ方法の総数と, (2) 1つのニューロンの選び方の総数と, (3) ある1つのニューロンを2回選ぶ確率の積なので,

\[p = \underbrace{(K^n)^2 \vphantom{\frac 1 2}}_{(1)} \underbrace{N \vphantom{\frac 1 2}}_{(2)} \underbrace{\frac 1 {N^2}}_{(3)} = O(K^{2n} / N)\]

となる. これが 0 に漸近する, つまり \(p \ll 1\) (as \(N \to \infty\)) という条件から, \(K^n \ll \sqrt N\) が導かれる. いかなる自然数 \(n\) でもこれが成り立つには \(K \ll \log N\) であれば十分である.

[5]ただし, 各ニューロンの結合の数が平均 \(K\) 個のまわりでゆらいでいる効果は無視している.