2021年2月20日土曜日

ベイジアンネットワーク①

 ■ はじめに

確率的に起きる事象に関して、限られた情報から正しく意思決定するためにはベイジアンネットワークは非常に強力なツールになる。ここでは、ベイジアンネットワークとは何か?pythonで実装するにはどうすれば良いか?を解説したい。また実際のデータを用いてベイジアンネットワークの計算結果から意思決定を行う例も示す。

■ ベイジアンネットワークとは?

ベイジアンネットワークは確率モデルの一種で、複数の事象の関連性を有向非巡回グラフ(Diredted Acyclic Graph: DAG)を用いて表現しようとするモデルだ。ここでDAGとは、ノードとそれらを繋ぐ有向エッジから構成され、ループ構造が存在しないグラフ構造のことをいう。

下の図のようにベイジアンネットワークでは、DAGの各ノードを確率変数とし、ノード間が有向エッジで繋がれている場合は子の確率変数を親の確率変数の「条件付き確率」で表せると考える。


■ 同時確率と条件付き確率

ここで同時確率と条件付き確率について復習しておきたい。

複数の事象を考えるときに、それらが同時に起きる確率を「同時確率」という。2つの確率的に起きる事象を確率変数AとBとすると、AとBがそれぞれaとbの値となる場合の確率を\(P(A=a, B=b)\)というように表す。

一方で「条件付き確率」とは、「既にある事象が起きたと確定した条件下で」他の事象が起きる確率を示す。確率変数Aがaの値をとった「条件下」でBがbの値をとる確率を示し\(P(B=b|A=a)\)と表す。

また、確率の連鎖律(Chain Rule)より下式が成り立つ。
\[P(A=a, B=b)=P(B=b|A=a)P(A=a)\]

※以降、簡略化のため\(P(A=a)\)などは\(P(A)\)のように確率変数の実現値は省略して表記する。

■ベイジアンネットワークでの同時確率

上記の連鎖律を用いると上図のネットワークで確率変数\(X_1\)〜\(X_5\)の同時確率は
\[P(X_1, X_2, X_3, X_4, X_5)=P(X_5| X_3)P(X_4| X_3)P(X_3|X_1, X_2)P(X_1)P(X_2)\]
となる。
ここで、
  • \(P(X_3 | X_1, X_2)\)は、親である\(X_1\)と\(X_2\)がそれぞれ \(X_1=x_1\)、\(X_2=x_2\)と確定した時の\(X_3\)の条件付き確率。
  • \(P(X_1)\)、\(P(X_2)\)はそれぞれ、\(X_1=x_1\)、\(X_2=x_2\)の実現値をとる確率。
  • \(P(X_5 | X_3)\)や\(P(X_4 | X_3)\)は、親である\(X_3\)が(\(X_3=x_3\)と)確定した時の\(X_4\)、\(X_5\)の条件付き確率。
を示している。この式を注意深く見るとベイジアンネットワークの同時確率は一般的に各ノードの親ノードに関する条件付き確率の積、つまり
\[P(X_1, ..., X_n)=\prod_{i=1}^n P(X_i| Parents(X_i)) \tag{1}\]
の形に書けることが容易に想像がつく。ここで\(Parents(X_i)\)は確率変数\(X_i\)の親ノードを表している。

■ 具体例

簡単なベイジアンネットワークの具体例で同時確率を求めることをしていこう。
ここでは下図のような仮想的なシチュエーションの因果関係の例として考えていく。
ある家に警報システムが導入されており、家に異常(強盗 or 火事)が発生すると警報サイレンが鳴り、それを聞いた近所の人が警察もしくは消防に連絡することになるという因果関係を示している。

それぞれの事象の確率変数は事象が発生(1)するか否(0)かの2値をとる。幸い強盗や火事が発生する可能性は極めて低いが、若干火事の発生確率の方が大きい。また強盗や火事が発生すると高確率でサイレンが鳴るようになっているが、強盗や火事以外の異常でなる可能性もある。またサイレンが鳴るとそれを聞いた近所の人が警察もしくは消防に連絡をする確率が高まる。

この時、何も起きない、すなわち\(B=F=S=P=D=0\)となる確率はいくらだろうか?先ほどのベイジアンネットワークの同時確率である(1)式に当てはめ表から実際の数値をとると、
\[P(B=0, F=0, S=0, P=0,D=0)\\\\=P(P=0|S=0)(D=0|S=0)P(S=0|B=0, F=0)P(B=0)P(F=0) \\\\=0.99*0.96*0.9*0.99*0.98=0.83\]
と計算ができる。

ここまででベイジアンネットワークでの同時確率を求めることまでできた。ベイジアンネットワークの強力なところは、このモデルを用いると、ある事象が発生した場合に、その要因の分析が可能であることである。例えば上の例では警察に通報が行き(P=1)消防に通知が行かない(D=0)という事象が発生したときにその要因が火事である確率、もしくは強盗である確率を求めることができる(要因推定)。
次回は、要因推定について詳しく見ていきたい。





2021年1月17日日曜日

Artificial Life(ALife)とはなにか?

 最近、ちょくちょくと人工生命(Artificial Life: ALife)というワードを聞くようになった。単語から読み取れるところなんとなくイメージできるけど、具体的にどういう研究なのか?どういう応用が期待できるか?人工知能(AI)と何が違うのか?などのイメージが沸かない。

ここここの記事がその疑問を少し解決してくれたので改めて整理したい。

■ キャッチフレーズは "Life as it could be."

人工生命のキャッチフレーズは"Life as it could be"、すなわち「あり得たかもしれない生命」などと言われるらしい。なるほど実際に地球上に存在する(していた)生物について研究する生物学とは異なり、よりメタ的な生命を研究する。つまり「生命」と呼べるものがもつ一般的な性質(生命であるための必要条件)を探ろうという学問と考えられる。そしてその必要条件が何かを探るために、構成論的にボトムアップで生命を作っていこうする。これは意識とは何かを探る、谷口忠大先生の記号創発ロボティクスとアプローチが似ている。


■人工知能との違い

人工知能は人間の知性すなわち、大脳新皮質の部分の役割にフォーカスしているのに対して、人工生命は身体知や生命維持など脳幹が司る知能にフォーカスを与えている。
さらに私が最もガッテンしたのが、適用方法の違い。人工知能は学習、人工生命は「進化」という違いがある。学習はある程度収束するものであるが、進化は終わりなき進化を続けていく(Open-ended evolution)。そして学習が個の範囲で閉じるのに対して進化は集団として個が相互作用しながら長期的、永続的に進んでいくものである違いがある。

少しづつ勉強を進めていこう。

2020年11月15日日曜日

分散や標準偏差のオンライン計算 → Welfordアルゴリズム

データが逐次追加されていく際に、追加されるたびにその時点での「分散」や「標準偏差」を計算したい場合がある。その時点での全てのデータから毎度計算しても良いが、やはり計算量が馬鹿らしい。そこで欲しくなるのが、これらの量をオンライン(ストリーム処理)で計算できるアルゴリズムだ。

安心してください、ありますよ。「Welford アルゴリズム」というものです。

ここではそのWelfordアルゴリズムを紹介したい。

※以下、不偏分散を考えるが、標本分散の場合でも全く同じ考えが出来る。

■分散と標準偏差

データサンプルが\(x_i, \ldots, x_N\)で与えられる場合を考えられる。この時、データの不偏分散\(s^2\)の定義は

\[s^2 = \frac{\sum_{i=1}^N (x_i – \bar{x})^2}{N-1}\]

として与えられる。そして標準偏差\(s\)はその平方根\(s = \sqrt{s^2}\)だ。

ここで\(\bar{x}\)はサンプルの平均、すなわち\(\bar{x} = \frac{1}{N}\sum_{i=1}^N x_i\)である。

この定義通りに分散を計算する場合、以下の2ステップを辿る。

  1. データ全体の平均\(\bar{x}\)を計算。
  2. 各データ\(x_i\)と平均\(\bar{x}\)の差分の二乗を計算。
このような計算は明らかに無駄が多い。まずデータ全体を舐める計算を2回も繰り返す必要がある。また、データ全体に対する計算を行うためにすべてのデータを保持しないといけないので今回の主題であるオンラインの計算をするためにはこのままではダメだ。何か工夫がいる。

■Welfordアルゴリズム

そこでWelfordアルゴリズムでは、サンプルが\(N\)個の時と\(N-1\)個の時の分散の差に着目して以下の計算を行う。

\begin{align} &(N-1)s_N^2 – (N-2)s_{N-1}^2 \\ &= \sum_{i=1}^N (x_i-\bar{x}_N)^2-\sum_{i=1}^{N-1} (x_i-\bar{x}_{N-1})^2 \\ &= (x_N-\bar{x}_N)^2 + \sum_{i=1}^{N-1}\left((x_i-\bar{x}_N)^2-(x_i-\bar{x}_{N-1})^2\right) \\ &= (x_N-\bar{x}_N)^2 + \sum_{i=1}^{N-1}(x_i-\bar{x}_N + x_i-\bar{x}_{N-1})(\bar{x}_{N-1} – \bar{x}_{N}) \\ &= (x_N-\bar{x}_N)^2 + (\bar{x}_N – x_N)(\bar{x}_{N-1} – \bar{x}_{N}) \\ &= (x_N-\bar{x}_N)(x_N-\bar{x}_N – \bar{x}_{N-1} + \bar{x}_{N}) \\ &= (x_N-\bar{x}_N)(x_N – \bar{x}_{N-1}) \\ \end{align}

この結果から、下式のようにデータが\(N\)個の時の分散を\(N-1\)個の時の分散から求められることがわかる。

\[ s_N^2 = \frac{N-2}{N-1} s_{N-1}^2 + \frac{1}{N-1} (x_N-\bar{x}_N)(x_N – \bar{x}_{N-1}) \]

この結果をもとに分散をオンラインで計算するアルゴリズムに落とすと、下の疑似コードのようになる。(forで各データを逐次回している部分がそれだ)

驚くほど簡単なアルゴリズムだ。

■ライブラリ

簡単なので必要に応じて自分で実装すれば良いが、Python用のライブラリを作ってPypiに登録してみたのでよければそれを使ってみてください。改良点があればGithubリポジトリにIssue投げて頂ければ嬉しいです。


■参考

2020年11月14日土曜日

Gradient Boosting(勾配ブースティング)とは

最近、Kaggleだとかその周辺では、XGboostだとかcatboostだとか、Gradient Boosting(勾配ブースティング)の手法が流行っているらしい。最終的にcatboostを勉強する目的で、その前段階として勾配ブースティングをひととおり勉強したので、そのメモ。

■Boosting(ブースティング)とは?

ブースティングとはアンサンブル学習の一種で、弱学習機を「積み重ねる」ことで精度を上げようとするもの。下の図がわかりやすいが、バギングは複数の弱学習機を並列に並べてそれぞれの学習機の結果を平均したり投票したりして最終的な結果を出力するもので、Random Forestが代表的な例。一方でブースティングは複数の弱学習機を「直列」に並べてモデルを強化してあげようという思想のもの。具体的な例としてはLS_boostingが挙げられる。この手法は1つ目の弱学習機での回帰残差を2つめの弱学習機で最小化するようにし、さらにその結果の残差を3つめの弱学習機で最小化するようにし・・・・、というふうに学習機を繋いでいく。
ブースティングのアルゴリズムには幾つか種類があり、代表的なのはAdaboostや今回のトピックである勾配ブースティング。

■勾配ブースティングの概要

勾配ブースティングは、超ざっくりでいうと「前の学習機の誤差を埋めるように次の弱学習機を学習させる」ことをしている。
勾配ブースティングアルゴリズムの疑似コードは以下のようなものだ。

ここで、\(L\)は回帰や分類のLoss関数、\(h\)は個別の弱学習器、\(F_m\)は各弱学習器を統合した(つまり繋いだ)加法モデルを示している。
  • 3行目:それぞれのサンプル(\(i\))についてのLossをその時点(の1つ前)の加法モデルの偏微分(\(F\)を微小変化させた時の\(L\)の変化量)のマイナスを\(\tilde{y}_i\)と計算している。つまりこれはLossを最小にするための勾配降下の方向を示している。
  • 4行目:3行目で求めた勾配降下の方向に最も近くなる修正を加える弱学習器を学習させる。
  • 5行目:4行目で求めた弱学習機をその時点の加法モデルに加える時のパラメータ(学習レート?)を学習。
  • 6行目:4行目と5行目の結果から、加法モデルを決定。
というプロセスを繰り返すアルゴリズムとなっている。
ここで、勾配効果の方向にむけて弱学習器を学習させていくことから「勾配」ブースティングという名前がついているのだ。

■勾配ブースティングの具体例

勾配ブースティング自体は一般的なアルゴリズムのため、そのアルゴリズムの中で利用するLossの種類などは様々なバリエーションが存在する。
最もシンプルな具体的なLossを回帰の二乗誤差とするもので、LS_boosting。
Lossを二乗誤差、つまり\(L(y_i, F(\boldsymbol{x}_i))=\frac{1}{2}(y_i - F(\boldsymbol{x}_i))^2\)としたときに、3行目の偏微分は
\[\tilde{y}_i= - \left[\frac{\partial L}{\partial F}\right] _{F=F_{m-1}}= - \left[\frac{\partial \frac{1}{2}(y_i - F)^2}{\partial F}\right] _{F=F_{m-1}} = y_i - F_{m-1}\]
となり、一つ前のイタレーションで作成した加法モデルと実測との残差になる。そのため前述したようにLS_boostingはこの残差を最小化するように次の弱学習器を作成するということになる。

■参考

https://www.st-hakky-blog.com/entry/2017/08/08/092031
https://ticc-econometrics.hatenablog.com/entry/gbdt2#fn-6241a4a1

2020年9月26日土曜日

データは寡黙である。

これまで十数年間、いくつかの企業でデータ分析に携わってきた。その間にビッグデータや人工知能、ディープラーニングというようなバズワードが流行り「データ至上主義」ともいえる風潮が流れ始めているふうに感じる。

 確かに画像などの判別技術や購買予測、レコメンデーション技術など、大量データを学習機に食わせて成果を出している分野もある。

しかし、企業でデータ活用として期待されているのはこれらだけでない。それよりも「現在起きている、または予測されることに対してどのようにアクションとるべきか?」をデータから見出すこと(以降、これを「データからインサイトを得る」と表現する)が求められるケースが圧倒的に多い。

注意が必要なのは、「購買予測をする」ことと「より売上を上げるためにとるべきアクションを見出す」ことは全く異なり、またそれに必要な技術も全く別物であることだ。

典型的で有名な例として「アイスクリーム売上と犯罪発生数の関連性」を挙げてみる。下の左のグラフはある町のアイスクリームの売上と犯罪発生数の関連性を示したものだ。グラフから読み取るにアイスクリームの売上が多い時に犯罪発生数が多い関係性が見て取れる。しかしよく言われるように、これは関連性(相関)があるだけで、決して「アイスクリームの売上が増えたから犯罪発生数が増えた」という原因と結果を示しているわけではない。この裏には下右図のように、「気温」というアイスと犯罪の両者の増減に影響を与える共通の要因(交絡因子)が存在し、気温が暑い時にはアイスクリームの売上が増えるのと同時に、イライラして犯罪数も増えることで、直接関係のないアイスと犯罪に関連性が現れているのである(偽相関)。


この例は2つの重要なことを示している。

1つは、「予測する」と「原因と結果の関係性(因果関係)を分析する」は別物であるということである。図から見て取れるようにアイスの売上を説明変数にして犯罪率を予測することは(ある程度の汎化性をもって)可能である。しかし、だからといって犯罪数を減らすためにアイスの売上を減らす(店舗を閉鎖させる)というアクションは全く有効ではないことは自明であろう。

2つめは、ほとんどの場合にデータのみだけでは因果関係はわからないという事実だ。データからわかるのは事象間の関連性(相関)のみであり、原因と結果の関連性を見出すためには、事象の関係に対するその分野での固有の知識(ドメイン知識)が不可欠である。例えば上の例では、「アイスクリームが犯罪の発生に寄与することはないはずだ」、「両者に共通する要因として気温が考えられる」というという事前知識があるが故に本当の因果関係を見出すことができた。

企業でデータ分析の業務を行っていると、データが大量にあればなんでもわかるという誤った神話に苦労することが多い。データは因果分析においては恐ろしいほど寡黙であり、データにドメイン知識を与えて初めてデータが物事を語り始めるということを認識しないといけない。






2020年7月23日木曜日

RandomForestはホントに交互作用を拾うか?

木構造系のモデルは、分岐の組み合わせにより説明変数間の交互作用もモデルに自動的に組み込まれそうな「気がする」。しかし実際に実際に動かしてそのことを確認した記事がネット上になかったので自分自身で確認することに。

まずはトイデータを用意。ここでX[:, 2]とX[:, 3]が交互作用で目的変数に効くようにしている。X[:, 0]は目的変数には無関係な説明変数。

次に学習&テストデータセットに分けて学習と予測を行って精度評価してみる。
ここでは比較対象として単純な線形回帰モデルも使っている。



なるほど、ほとんど予測できていない線形回帰と比べてRandomForestは精度良く予測できている。

Importanceも一応見てみると、交互作用に関わる変数のImportanceが高くなっている。


以上、当たり前といえば当たり前だけど実際に確認してみた。

ここに元のNotebookを置いています。