\(\newcommand{\D}{\text{d}} \newcommand{\I}{\text{i}} \newcommand{\E}{\text{e}} \newcommand{\Prob}{\mathbb{P}} \newcommand{\Expect}{\mathbb{E}} \newcommand{\Var}{\text{Var}} \newcommand{\PAvg}[1]{\left[#1\right]} \newcommand{\Avg}[1]{\left\langle#1\right\rangle} \newcommand{\AvgJ}[1]{\Avg{#1}_{\bm J}} \newcommand{\AvgDyn}[1]{\Avg{#1}_{\text{dyn.}}} \newcommand{\CAvg}[2]{\Avg{#1}_{\left|#2\right.}} \newcommand{\Devi}{\mathfrak{d}}\)

平均場方程式の導出

ニューロン i の初期値 \sigma_k^i(0) とその更新のランダム性と初期値 \bm \sigma に 関する平均を \AvgDyn{\bullet} [1] と書き, ニューロン i の(局所)活動率を

m_k^i (t) = \AvgDyn{\sigma_k^i(t)}

と定義する.

[1]初期値 \bm \sigma に関する平均とは, 時刻 0 での集団活動率 m_k(0)\sigma_k^i(0) が 1 の確率で, それぞれの i について \sigma_k^i(0) が独立, という確率分布に関する平均である.

課題

他の場所では, \AvgDyn{\bullet} は使われていない. 使うべき? 例えば, 他の場所では m_k = \PAvg{\sigma_k^i} だけど, ここでは m_k = \PAvg{\AvgDyn{\sigma_k^i}} である.

ニューロン i への入力が閾値を超える確率 [2] は, 更新時間のランダム性に関する平均 \AvgDyn{\Theta(u_k^i (t))} で表すことが出来る. [3] さらに, 更新のタイミングはポアソン過程で表され, 入力が閾値を超えていた場合に状態 1 へ遷移する単位時間当たりの条件付き確率は, 1 / \tau_k である. こられらを合わせると, 単位時間あたりにニューロン i が状態を 1 に遷移する確率は \AvgDyn{\Theta(u_k^i (t))} / \tau_k で与えられていることが分かる. 期待値の時間発展 の関係式を用いれば,

\tau_k \frac{\D}{\D t} m_k^i (t)
= - m_k^i (t) + \AvgDyn{\Theta(u_k^i (t))}

と書くことができる.

[2]正確には, 系の状態 \bm \sigma が与えられた時の条件付き確率, である.
[3]確率変数 X について事象 X \in A が起こる確率は指示関数 (indicator function) 1_A(X) を用いて \Prob \{ X \in A \} = \Expect \{1_A(X)\} と書けることを思い出そう.

この式の集団平均をとる (つまり両辺に \PAvg{\bullet}_i を施す) と, 集団活動率 m_k のダイナミクスを表す式

\tau_k \frac{\D}{\D t} m_k (t)
= - m_k (t) + \PAvg{\AvgDyn{\Theta(u_k^i (t))}}_i

を得る. この節では, 右辺第二項

F_k(m_E, m_I) := \PAvg{\AvgDyn{\Theta(u_k^i (t))}}_i

を計算する. 素朴に考えれば右辺は系の微視的な状態 \bm \sigma に依存しているはずだが, 左辺は巨視的な状態, つまり集団活動率 m_k のみに依存することを主張している. この微視的な状態への非依存性は F_k(m_E, m_I) の計算の過程で自動的に出てくる結果である.

確率 F_k(m_E, m_I) は以下の仮定 [4] のもとで計算することが出来る.

仮定

すべてのニューロンの活動が無相関である.

形式的に書けば, いかなるふたつのニューロン (i, k)(j, l) (k, l \in \{E, I\}, i = 1, \ldots, N_k, j = 1, \ldots, N_l) についても, それぞれの活動 X = \AvgDyn{\Theta(u_k^i (t))}, Y = \AvgDyn{\Theta(u_l^j (t))} はすべての時間 t について無相関, つまり,

\lim_{N \to \infty}
\AvgJ{ \left(
  X - \AvgJ{X}
\right) \left(
  Y - \AvgJ{Y}
\right) }
= 0

が, 成り立つ.

[4]原著 [vanVreeswijk1998] での仮定は「すべてのニューロンについて, それに結合しているすべてのニューロンの活動が無相関である」であり, 本稿で使っている仮定より若干弱い. しかし, 無相関性の「証明」 より本稿で使っている仮定は [vanVreeswijk1998] の仮定と同じ条件 K \ll \log N で成り立つことが分かる. さらに, すべてのニューロンが無相関でなければ, 無相関変数に対する大数の法則 が使えない (自己平均性 (self-averaging property) を参照).

これは, K \ll \log N が成り立てば成り立つ. 詳しい議論については, 無相関性の「証明」 を参照.

自己平均性 (self-averaging property)[\Theta(u_k^i (t))]_i の計算に適用すれば, [\bullet]_i\AvgJ{\bullet} を交換することが出来て,

F_k(m_E, m_I) \approx \AvgJ{\AvgDyn{\Theta(u_k^i (t))}}

を計算すれば良いことが分かる.

ニューロン in_E(t) 個の興奮性ニューロンと n_I(t) 個の抑制性ニューロンから入力を受けているとすれば, その全入力は

u_k^i (t) = \sqrt K J_{k0} m_0
            + \frac{J_{kE}}{\sqrt K} n_E (t)
            + \frac{J_{kI}}{\sqrt K} n_I (t)
            - \theta_k

となる. 確率 F_k(m_E, m_I) はこの入力が正である確率であり,

F_k(m_E, m_I)
&\approx
\sum_{n_1, n_2 = 0}^\infty
p_1(n_1 | m_1) \, p_2(n_2 | m_2) \,
\Theta \left(
  \sqrt K J_{k0} m_0
  + \sum_{l=1,2} \frac{J_{kl}}{\sqrt K} n_l
  - \theta_k
\right) \\

となる. ただし, p_l (n_l | m_l) は集団 l \in \{E, I\} の活動率が m_l の時にニューロン i が集団 l から n_l 個の入力を受ける確率であり,

p_l (n | m_l)
& \approx
  \sum_{s=n}^\infty
  \underbrace{
    \frac{K^s}{s!} \E^{-K}
  }_{\text{(P1)}}
  \underbrace{
    \begin{pmatrix}
      s \\ n
    \end{pmatrix}
    (m_l)^n (1 - m_l)^{s-n}
  }_{\text{(P2)}}
\\
& =
  \frac{(m_l K)^n}{n!} \E^{-m_l K}

となる. ここで, (P1) は集団 k のニューロン (どのニューロンでも成立する) が集団 ls 個のニューロンからの結合を持つ確率であり, (P2) はその s 個のニューロンのうち n 個のニューロンが活動している (\sigma_l^j = 1 である) 確率である. 最後の等式は, \exp の定義に基づけば、以下の計算で確認できる.

&
  \sum_{s=n}^\infty \frac{K^s}{s!} \E^{-K}
  \begin{pmatrix}
    s \\ n
  \end{pmatrix}
  (m_l)^n (1 - m_l)^{s-n}
\\
& =
  \sum_{s=n}^\infty \frac{K^s}{s!} \E^{-K}
  \frac{s!}{n! (s-n)!}
  (m_l)^n (1 - m_l)^{s-n}
\\
& =
  \frac{\E^{-K} (K m_l)^n}{n!}
  \sum_{s=n}^\infty \frac{K^{s-n}}{(s-n)!}
  (1 - m_l)^{s-n}
\\
& =
  \frac{\E^{-K} (K m_l)^n}{n!}
  \E^{K \, (1-m_l)}
\\
& =
  \frac{(K m_l)^n}{n!}
  \E^{-K m_l}

この確率分布は平均と分散が m_l Kポアソン分布 (Poisson distribution) なので, 極限 K \to \infty, つまりこの平均と分散が大きな極限では ガウス分布 (Gaussian distribution)

\frac{1}{\sqrt{2 \pi m_l K}}
\exp \left( - \frac{(n_l - m_l K)^2}{2 m_l K} \right)

で近似できる. この極限 K \to \infty で,

F_k(m_E, m_I)
& =
  \sum_{n_1, n_2 = 0}^\infty
  p_1(n_1 | m_1) \, p_2(n_2 | m_2) \,
  \Theta \left(
    \sqrt K J_{k0} m_0
    + \sum_{l=1,2} \frac{J_{kl}}{\sqrt K} n_l
    - \theta_k
  \right)
\\
& \overset{(1)} \approx
  \int Dx_1 \, Dx_2 \,
  \Theta \left(
    \sqrt K J_{k0} m_0
    + \sum_{l=1,2} \frac{J_{kl}}{\sqrt K}
      (m_l K + x_l \sqrt{m_l K})
    - \theta_k
  \right)
\\
& \overset{(2)} =
  \int Dx_1 \, Dx_2 \,
  \Theta \left(
    u_k + \sum_{l=1,2} x_l J_{kl} \sqrt{m_l}
  \right)
\\
& \overset{(3)} =
\int Dx \, \Theta (u_k + \sqrt{\alpha_k} x)
\\
& \overset{(4)} =
  H \left( \frac{- u_k}{\sqrt{\alpha_k}} \right)

と計算できる. ここで,

Dx & := \D x \exp(-x^2) / \sqrt{2 \pi}
\\
u_k
& := (J_{k0} m_0 + J_{kE} m_E + J_{kI} m_I) \sqrt K - \theta_k,
\\
\alpha_k
& := (J_{kE})^2 m_E + (J_{kI})^2 m_I
\\
H(z)
& := \int_z^\infty \frac{\D x}{\sqrt{2 \pi}} \exp(- x^2 / 2)

である. 上記の u_k\alpha_k はただ変数に名前をつけただけだが, これらの物理的意味については 入力のゆらぎ を参照せよ. Dxガウス測度 (Gaussian measure) と呼ばれるただの省略記号である. 関数 H(z)Q関数 と呼ばれる関数である. 上の計算では, (1) n_l \approx m_l K + x_l \sqrt{m_l K} なる近似と ガウス確率変数の変数変換, (2) u_k の定義, (3) ヘヴィサイド関数の多重ガウス積分とQ関数 の関係, (4) H(z) の定義をそれぞれ用いた.

無相関性の「証明」

以下の議論は [Derrida1987] に依る.

今, 初期状態から n 回の更新が起こったとする. いかなるニューロンも, n 回の更新の前まで遡れば最大でも K^n[5] のニューロンの初期状態に依存している. 2つのニューロンから伸びる「木」はそれぞれ平均で K^n の「枝」をもつ. この中で最低でも1つの枝が同じニューロンに繋がっている確率は, (1) 2つの木からそれぞれの1つの枝を選ぶ方法の総数と, (2) 1つのニューロンの選び方の総数と, (3) ある1つのニューロンを2回選ぶ確率の積なので,

p =
\underbrace{(K^n)^2 \vphantom{\frac 1 2}}_{(1)}
\underbrace{N \vphantom{\frac 1 2}}_{(2)}
\underbrace{\frac 1 {N^2}}_{(3)}
=
O(K^{2n} / N)

となる. これが 0 に漸近する, つまり p \ll 1 (as N \to \infty) という条件から, K^n \ll \sqrt N が導かれる. いかなる自然数 n でもこれが成り立つには K \ll \log N であれば十分である.

[5]ただし, 各ニューロンの結合の数が平均 K 個のまわりでゆらいでいる効果は無視している.