平均場方程式の導出¶

ニューロン $i$ の初期値 $\sigma_k^i(0)$ とその更新のランダム性と初期値 $\bm \sigma$ に関する平均を $\AvgDyn{\bullet}$ [1] と書き, ニューロン $i$ の(局所)活動率を

$m_k^i (t) = \AvgDyn{\sigma_k^i(t)}$

と定義する.

[1]	初期値 $\bm \sigma$ に関する平均とは, 時刻 0 での集団活動率 $m_k(0)$ が $\sigma_k^i(0)$ が 1 の確率で, それぞれの $i$ について $\sigma_k^i(0)$ が独立, という確率分布に関する平均である.

課題

他の場所では, $\AvgDyn{\bullet}$ は使われていない. 使うべき? 例えば, 他の場所では $m_k = \PAvg{\sigma_k^i}$ だけど, ここでは $m_k = \PAvg{\AvgDyn{\sigma_k^i}}$ である.

ニューロン $i$ への入力が閾値を超える確率 [2] は, 更新時間のランダム性に関する平均 $\AvgDyn{\Theta(u_k^i (t))}$ で表すことが出来る. [3] さらに, 更新のタイミングはポアソン過程で表され, 入力が閾値を超えていた場合に状態 1 へ遷移する単位時間当たりの条件付き確率は, $1 / \tau_k$ である. こられらを合わせると, 単位時間あたりにニューロン $i$ が状態を 1 に遷移する確率は $\AvgDyn{\Theta(u_k^i (t))} / \tau_k$ で与えられていることが分かる. 期待値の時間発展の関係式を用いれば,

$\tau_k \frac{\D}{\D t} m_k^i (t) = - m_k^i (t) + \AvgDyn{\Theta(u_k^i (t))}$

と書くことができる.

[2]	正確には, 系の状態 $\bm \sigma$ が与えられた時の条件付き確率, である.

[3]	確率変数 $X$ について事象 $X \in A$ が起こる確率は指示関数 (indicator function) $1_A(X)$ を用いて $\Prob \{ X \in A \} = \Expect \{1_A(X)\}$ と書けることを思い出そう.

この式の集団平均をとる (つまり両辺に $\PAvg{\bullet}_i$ を施す) と, 集団活動率 $m_k$ のダイナミクスを表す式

$\tau_k \frac{\D}{\D t} m_k (t) = - m_k (t) + \PAvg{\AvgDyn{\Theta(u_k^i (t))}}_i$

を得る. この節では, 右辺第二項

$F_k(m_E, m_I) := \PAvg{\AvgDyn{\Theta(u_k^i (t))}}_i$

を計算する. 素朴に考えれば右辺は系の微視的な状態 $\bm \sigma$ に依存しているはずだが, 左辺は巨視的な状態, つまり集団活動率 $m_k$ のみに依存することを主張している. この微視的な状態への非依存性は $F_k(m_E, m_I)$ の計算の過程で自動的に出てくる結果である.

確率 $F_k(m_E, m_I)$ は以下の仮定 [4] のもとで計算することが出来る.

仮定

すべてのニューロンの活動が無相関である.

形式的に書けば, いかなるふたつのニューロン $(i, k)$ と $(j, l)$ ( $k, l \in \{E, I\}$ , $i = 1, \ldots, N_k$ , $j = 1, \ldots, N_l$ ) についても, それぞれの活動 $X = \AvgDyn{\Theta(u_k^i (t))}$ , $Y = \AvgDyn{\Theta(u_l^j (t))}$ はすべての時間 $t$ について無相関, つまり,

$\lim_{N \to \infty} \AvgJ{ \left( X - \AvgJ{X} \right) \left( Y - \AvgJ{Y} \right) } = 0$

が, 成り立つ.

[4]	原著 [vanVreeswijk1998] での仮定は「すべてのニューロンについて, それに結合しているすべてのニューロンの活動が無相関である」であり, 本稿で使っている仮定より若干弱い. しかし, 無相関性の「証明」より本稿で使っている仮定は [vanVreeswijk1998] の仮定と同じ条件 $K \ll \log N$ で成り立つことが分かる. さらに, すべてのニューロンが無相関でなければ, 無相関変数に対する大数の法則が使えない (自己平均性 (self-averaging property) を参照).

これは, $K \ll \log N$ が成り立てば成り立つ. 詳しい議論については, 無相関性の「証明」を参照.

自己平均性 (self-averaging property) を $[\Theta(u_k^i (t))]_i$ の計算に適用すれば, $[\bullet]_i$ と $\AvgJ{\bullet}$ を交換することが出来て,

$F_k(m_E, m_I) \approx \AvgJ{\AvgDyn{\Theta(u_k^i (t))}}$

を計算すれば良いことが分かる.

ニューロン $i$ が $n_E(t)$ 個の興奮性ニューロンと $n_I(t)$ 個の抑制性ニューロンから入力を受けているとすれば, その全入力は

$u_k^i (t) = \sqrt K J_{k0} m_0 + \frac{J_{kE}}{\sqrt K} n_E (t) + \frac{J_{kI}}{\sqrt K} n_I (t) - \theta_k$

となる. 確率 $F_k(m_E, m_I)$ はこの入力が正である確率であり,

$F_k(m_E, m_I) &\approx \sum_{n_1, n_2 = 0}^\infty p_1(n_1 | m_1) \, p_2(n_2 | m_2) \, \Theta \left( \sqrt K J_{k0} m_0 + \sum_{l=1,2} \frac{J_{kl}}{\sqrt K} n_l - \theta_k \right) \\$

となる. ただし, $p_l (n_l | m_l)$ は集団 $l \in \{E, I\}$ の活動率が $m_l$ の時にニューロン $i$ が集団 $l$ から $n_l$ 個の入力を受ける確率であり,

$p_l (n | m_l) & \approx \sum_{s=n}^\infty \underbrace{ \frac{K^s}{s!} \E^{-K} }_{\text{(P1)}} \underbrace{ \begin{pmatrix} s \\ n \end{pmatrix} (m_l)^n (1 - m_l)^{s-n} }_{\text{(P2)}} \\ & = \frac{(m_l K)^n}{n!} \E^{-m_l K}$

となる. ここで, (P1) は集団 $k$ のニューロン (どのニューロンでも成立する) が集団 $l$ の $s$ 個のニューロンからの結合を持つ確率であり, (P2) はその $s$ 個のニューロンのうち $n$ 個のニューロンが活動している ( $\sigma_l^j = 1$ である) 確率である. 最後の等式は, $\exp$ の定義に基づけば、以下の計算で確認できる.

$& \sum_{s=n}^\infty \frac{K^s}{s!} \E^{-K} \begin{pmatrix} s \\ n \end{pmatrix} (m_l)^n (1 - m_l)^{s-n} \\ & = \sum_{s=n}^\infty \frac{K^s}{s!} \E^{-K} \frac{s!}{n! (s-n)!} (m_l)^n (1 - m_l)^{s-n} \\ & = \frac{\E^{-K} (K m_l)^n}{n!} \sum_{s=n}^\infty \frac{K^{s-n}}{(s-n)!} (1 - m_l)^{s-n} \\ & = \frac{\E^{-K} (K m_l)^n}{n!} \E^{K \, (1-m_l)} \\ & = \frac{(K m_l)^n}{n!} \E^{-K m_l}$

この確率分布は平均と分散が $m_l K$ のポアソン分布 (Poisson distribution) なので, 極限 $K \to \infty$ , つまりこの平均と分散が大きな極限ではガウス分布 (Gaussian distribution)

$\frac{1}{\sqrt{2 \pi m_l K}} \exp \left( - \frac{(n_l - m_l K)^2}{2 m_l K} \right)$

で近似できる. この極限 $K \to \infty$ で,

$F_k(m_E, m_I) & = \sum_{n_1, n_2 = 0}^\infty p_1(n_1 | m_1) \, p_2(n_2 | m_2) \, \Theta \left( \sqrt K J_{k0} m_0 + \sum_{l=1,2} \frac{J_{kl}}{\sqrt K} n_l - \theta_k \right) \\ & \overset{(1)} \approx \int Dx_1 \, Dx_2 \, \Theta \left( \sqrt K J_{k0} m_0 + \sum_{l=1,2} \frac{J_{kl}}{\sqrt K} (m_l K + x_l \sqrt{m_l K}) - \theta_k \right) \\ & \overset{(2)} = \int Dx_1 \, Dx_2 \, \Theta \left( u_k + \sum_{l=1,2} x_l J_{kl} \sqrt{m_l} \right) \\ & \overset{(3)} = \int Dx \, \Theta (u_k + \sqrt{\alpha_k} x) \\ & \overset{(4)} = H \left( \frac{- u_k}{\sqrt{\alpha_k}} \right)$

と計算できる. ここで,

$Dx & := \D x \exp(-x^2) / \sqrt{2 \pi} \\ u_k & := (J_{k0} m_0 + J_{kE} m_E + J_{kI} m_I) \sqrt K - \theta_k, \\ \alpha_k & := (J_{kE})^2 m_E + (J_{kI})^2 m_I \\ H(z) & := \int_z^\infty \frac{\D x}{\sqrt{2 \pi}} \exp(- x^2 / 2)$

である. 上記の $u_k$ と $\alpha_k$ はただ変数に名前をつけただけだが, これらの物理的意味については入力のゆらぎを参照せよ. $Dx$ はガウス測度 (Gaussian measure) と呼ばれるただの省略記号である. 関数 $H(z)$ は Q関数と呼ばれる関数である. 上の計算では, (1) $n_l \approx m_l K + x_l \sqrt{m_l K}$ なる近似とガウス確率変数の変数変換, (2) $u_k$ の定義, (3) ヘヴィサイド関数の多重ガウス積分とQ関数の関係, (4) $H(z)$ の定義をそれぞれ用いた.

無相関性の「証明」¶

以下の議論は [Derrida1987] に依る.

今, 初期状態から $n$ 回の更新が起こったとする. いかなるニューロンも, $n$ 回の更新の前まで遡れば最大でも $K^n$ 個 [5] のニューロンの初期状態に依存している. 2つのニューロンから伸びる「木」はそれぞれ平均で $K^n$ の「枝」をもつ. この中で最低でも1つの枝が同じニューロンに繋がっている確率は, (1) 2つの木からそれぞれの1つの枝を選ぶ方法の総数と, (2) 1つのニューロンの選び方の総数と, (3) ある1つのニューロンを2回選ぶ確率の積なので,

$p = \underbrace{(K^n)^2 \vphantom{\frac 1 2}}_{(1)} \underbrace{N \vphantom{\frac 1 2}}_{(2)} \underbrace{\frac 1 {N^2}}_{(3)} = O(K^{2n} / N)$

となる. これが 0 に漸近する, つまり $p \ll 1$ (as $N \to \infty$ ) という条件から, $K^n \ll \sqrt N$ が導かれる. いかなる自然数 $n$ でもこれが成り立つには $K \ll \log N$ であれば十分である.

[5]	ただし, 各ニューロンの結合の数が平均 $K$ 個のまわりでゆらいでいる効果は無視している.

平均場方程式の導出¶

無相関性の「証明」¶

興奮・抑制均衡入門

Navigation

前のトピックへ

次のトピックへ

このページ