秩序と情報とブロッコリー

アブダクション

2023-05-04T10:41:00.001+09:00

アブダクション～仮説と発見の論理（米盛裕二）を読んだので、内容を整理する。

アブダクションとは論理学者のチャールズ・パースが提唱しているもの。
彼によると推論は①演繹、②帰納、③アブダクションの３種類に分類される。それぞれの推論の特色は以下のとおり。

演繹

推論の内容を考慮に入れずに推論の形式（前提と結論の間に成り立つ論理的形式）のみによって真なる前提から必然的に真なる結論が導かれる。

帰納

経験にもとづく蓋然的推論。限られた経験に基づいて一般的言明を行う推論。

アブダクション

仮説的推論。仮説を導くための推論。

分析的推論と拡張的推論という分類

分析的推論

演繹推論はこれにあたる。
前提と結論の含意関係の分析のみに関わり、外的な経験的事実の世界には関わらない。そのため経験的事実による反証にさらされない
前提の中に暗々裏に含まれている情報を解明し、それを結論に明確に述べるだけ。

拡張的推論

帰納推論やアブダクションはこれにあたる。
結論は前提の内容以上のことを主張する。
帰納推論の場合は「部分」を述べる前提から「全体」へ知識を拡張する。
アブダクションの場合は、前提（事実）からそれを説明するため仮説へ拡張する。

帰納とアブダクションの関係

仮説は帰納を積み重ねるだけでは仮説は生まれない。
例えばリンゴが落ちるのを何回も観察して一般化しても「万有引力」という仮説は生まれない。
アブダクションにより仮説を生み、仮説を帰納で推論するという関係。

アブダクションの推論の形式は以下のように定式化される。

驚くべき事実Cがある。
しかしHならば、Cである。
よってHである。

アブダクションは、事実Cの観察からそれを説明しうると考えらえる仮説Hを推論するため「遡及推論（retroduction)」とも呼ばれる。

含意（AならばB）の真理値表

2023-05-04T09:45:00.000+09:00

論理学の勉強をしていると最初に躓くのが含意（AならばB, A->B)）の真理値表。
教科書には以下のように書いている。

AがTrueの場合は分かるが、AがFalseの時はなぜA→BがTrueになるのだろう？

答えとしては、A→Bは「Aが成り立つ前提が満たされればBが成り立つ（Trueとなる）」ことを示しており、Aが成り立たたないケースのことは何も規定していないことが重要。

なので、前提が満たされない（つまりAがFalseの場合）は、A→BはBが何であろうが成立する。という考え方。

なお、A→B は !A || Bと等価であることがよく使われる。

※なぜ等価なのかは、!A || B の真理値表を自分で書いて確かめてみよう。

PythonでMecabを使う（Unidic辞書編）

2023-03-26T08:41:00.005+09:00

日本語の自然言語処理には形態素解析が欠かせない。そこでよく使われるのがMecab。辞書として標準のipadicではなくUnidicを使おうとするといくつか落とし穴がある。

今回はそんな落とし穴に落ちずにインストールからmecabで品詞解析をするまでの手順を書いておく。

落とし穴①：Unidicを指定してmecabを動かそうとすると、`no such file or directory: /usr/local/lib/python3.9/site-packages/unidic/dicdir/mecabrc`のエラーが発生。
落とし穴②：`Mecab.Tagger("-Ochasen")`とするとエラーが発生。

まずpython3-mecabのインストールする。

# pip install mecab-python3
# pip install unidic

ただしUnidicはpipだけでは辞書本体がダウンロードされないため下記コマンドで辞書本体をダウンロードする。

# python -m unidic download

Mecab本家とは違いpython3-mecabはchasen出力のフォーマットがデフォルトでは用意されていないため、そのまま`Mecab.Tagger("-Ochasen")` を実行すると「chasenというようなフォーマットは無い」という趣旨のエラーが発生する。そこで、`/usr/local/lib/python3.9/site-packages/unidic/dicdir/dicrc`のファイル末尾にviなどで以下の`; ChaSen`以下の内容を追記する（参考）。

以上。

参考文献：https://www.teamxeppet.com/python-mecab-unidic-lite_mac/

F1スコアについて（メモ）

2021-10-23T07:29:00.000+09:00

仮説検定に関するメモ

2021-09-23T08:37:00.004+09:00

統計学入門で、仮説検定について再学習したのでメモ。改めて勉強すると曖昧な部分が整理されて良い。

仮説検定とは母集団について仮定された命題を標本で検証すること。帰無仮説を立ててその仮説が正しいとした場合に得られた標本が実現する確率の大きさで帰無仮説を採択するか棄却するかを決める。

例えばコイン投げを考える。20回コインを投げて14回表が出た時このコインに偏りがあるかを検討したい。

この時、帰無仮説として「コインに偏りは無い」という仮説を立てる。もし偏りがない場合、コイン投げの確率分布は二項分布Binary(20, p=0.5)に従うはずである。このとき表が14回以上出る確率を計算すると0.0577程度となる。これは有意水準10%で仮説が棄却される。つまり「コインに偏りは無いとは言えない」という結果となる。

ちなみに帰無仮説の「帰無」は特に意味がなく単なる仮説と言っても差し障りないとのこと。

ベイジアンネットワーク①

2021-02-20T09:27:00.003+09:00

■ はじめに

確率的に起きる事象に関して、限られた情報から正しく意思決定するためにはベイジアンネットワークは非常に強力なツールになる。ここでは、ベイジアンネットワークとは何か？pythonで実装するにはどうすれば良いか？を解説したい。また実際のデータを用いてベイジアンネットワークの計算結果から意思決定を行う例も示す。

■ ベイジアンネットワークとは？

ベイジアンネットワークは確率モデルの一種で、複数の事象の関連性を有向非巡回グラフ(Diredted Acyclic Graph: DAG）を用いて表現しようとするモデルだ。ここでDAGとは、ノードとそれらを繋ぐ有向エッジから構成され、ループ構造が存在しないグラフ構造のことをいう。

下の図のようにベイジアンネットワークでは、DAGの各ノードを確率変数とし、ノード間が有向エッジで繋がれている場合は子の確率変数を親の確率変数の「条件付き確率」で表せると考える。

■ 同時確率と条件付き確率

ここで同時確率と条件付き確率について復習しておきたい。

複数の事象を考えるときに、それらが同時に起きる確率を「同時確率」という。２つの確率的に起きる事象を確率変数AとBとすると、AとBがそれぞれaとbの値となる場合の確率を$P(A=a, B=b)$というように表す。

一方で「条件付き確率」とは、「既にある事象が起きたと確定した条件下で」他の事象が起きる確率を示す。確率変数Aがaの値をとった「条件下」でBがbの値をとる確率を示し$P(B=b|A=a)$と表す。

また、確率の連鎖律（Chain Rule）より下式が成り立つ。

\[P(A=a, B=b)=P(B=b|A=a)P(A=a)\]

※以降、簡略化のため$P(A=a)$などは$P(A)$のように確率変数の実現値は省略して表記する。

■ベイジアンネットワークでの同時確率

上記の連鎖律を用いると上図のネットワークで確率変数$X_1$〜$X_5$の同時確率は

\[P(X_1, X_2, X_3, X_4, X_5)=P(X_5| X_3)P(X_4| X_3)P(X_3|X_1, X_2)P(X_1)P(X_2)\]

となる。

ここで、

$P(X_3 | X_1, X_2)$は、親である$X_1$と$X_2$がそれぞれ $X_1=x_1$、$X_2=x_2$と確定した時の$X_3$の条件付き確率。
$P(X_1)$、$P(X_2)$はそれぞれ、$X_1=x_1$、$X_2=x_2$の実現値をとる確率。
$P(X_5 | X_3)$や$P(X_4 | X_3)$は、親である$X_3$が（$X_3=x_3$と）確定した時の$X_4$、$X_5$の条件付き確率。

を示している。この式を注意深く見るとベイジアンネットワークの同時確率は一般的に各ノードの親ノードに関する条件付き確率の積、つまり

\[P(X_1, ..., X_n)=\prod_{i=1}^n P(X_i| Parents(X_i)) \tag{1}\]

の形に書けることが容易に想像がつく。ここで$Parents(X_i)$は確率変数$X_i$の親ノードを表している。

■ 具体例

簡単なベイジアンネットワークの具体例で同時確率を求めることをしていこう。

ここでは下図のような仮想的なシチュエーションの因果関係の例として考えていく。

ある家に警報システムが導入されており、家に異常（強盗 or 火事）が発生すると警報サイレンが鳴り、それを聞いた近所の人が警察もしくは消防に連絡することになるという因果関係を示している。

それぞれの事象の確率変数は事象が発生(1)するか否(0)かの２値をとる。幸い強盗や火事が発生する可能性は極めて低いが、若干火事の発生確率の方が大きい。また強盗や火事が発生すると高確率でサイレンが鳴るようになっているが、強盗や火事以外の異常でなる可能性もある。またサイレンが鳴るとそれを聞いた近所の人が警察もしくは消防に連絡をする確率が高まる。

この時、何も起きない、すなわち$B=F=S=P=D=0$となる確率はいくらだろうか？先ほどのベイジアンネットワークの同時確率である（１）式に当てはめ表から実際の数値をとると、

\[P(B=0, F=0, S=0, P=0,D=0)\\\\=P(P=0|S=0)(D=0|S=0)P(S=0|B=0, F=0)P(B=0)P(F=0) \\\\=0.99*0.96*0.9*0.99*0.98=0.83\]

と計算ができる。

ここまででベイジアンネットワークでの同時確率を求めることまでできた。ベイジアンネットワークの強力なところは、このモデルを用いると、ある事象が発生した場合に、その要因の分析が可能であることである。例えば上の例では警察に通報が行き(P=1)消防に通知が行かない(D=0)という事象が発生したときにその要因が火事である確率、もしくは強盗である確率を求めることができる（要因推定）。

次回は、要因推定について詳しく見ていきたい。

行列の冪乗と固有値の関係について

2021-02-06T11:25:00.003+09:00

メモ。

参考：リンク

ベイズ学習の枠組み②

2021-02-02T13:55:00.000+09:00

前回の投稿では、ベイズ学習は以下の２ステップで行っていくことを述べた。

確率モデルの構築：グラフィカルモデルなどを利用しながら、事象の同時確率を定式化する。
推論：上で定式化した同時確率分布と、その未知のパラメータに対する周辺確率から事後確率を求める

実際にこのステップに従って、非常にシンプルな例の推論を行ってみたい。これによって実際に同時確率と周辺確率を計算することで、事後確率が推論できることが実感できるとおもう。

ここで考える例は以下のとおり。

例）箱の中のボールの数の推論

ある箱の中にボールが３つ入っている。ボールの色は赤か白のどちらかだが、どの色が何個入っているかはわからない。ここで箱の中からランダムに１つボールを取り出しそのボールの色を確認後箱の中に戻すという操作を行う。

【ケースA】１回の試行で「白」が出た場合

【ケースB】３回の試行で「白→赤→白」が出た場合

の２つの場合で箱の中の白ボールの数がどのように推論できるかを見ていこう。

■【ケースA】１回の試行で「白」が出た場合

上のように、確率モデルの構築→推論とステップを踏んで進めていこう。

▼確率モデルの構築

この場合の事象は下図のようなグラフィカルモデルで表せる。ここで$W=\{0, 1, 2, 3\}$は白玉の数を示す確率変数で、$W$の値により試行時に取り出される玉の色$X=\{r, w\}$の確率が決まるというモデルになっている。

また、簡単な確率の考察からそれぞれの確率は下表のようになる。ここで箱の中の玉の数は何の情報もないため等確率で発生するものとして$P_0(W)=1/4$、ここで$W=\{0,1, 2, 3\}$としている。この$P_0(W)$を事前確率という。

▼推論

「１回の試行で白ボールを取り出した」というデータが確定したもとでの白ボールの数を推論したいので、求めたいのは事後確率$P(W|X_1=w)$であり、条件付き確率の定義から

\[P(W|X_1=w)=\frac{P(W,X_1=w)}{P(X_1=w)}=\frac{P(W,X_1=w)}{\sum_W{P(W, X_1=w)}}\tag{1}\]

と書ける。上記の最左辺の分子と分母はこれまでの情報で計算できることがわかると思う。それぞれ求めていってみよう。

分子の同時確率は$P(W, X_1)=P(X_1|W)P(W)$であり、$P(W)_0=P(W)$とすると、

上の表から以下のように計算できる。

\[\begin{cases}P(W=0, X_1=w) & =P(X_1=w|W=0)P_0(W=0)= 0 \cdot \frac{1}{4} = 0 \\P(W=1, X_1=w) & =P(X_1=w|W=1)P_0(W=1)= \frac{1}{3} \cdot \frac{1}{4} = \frac{1}{12} \\P(W=2, X_1=w) & =P(X_1=w|W=2)P_0(W=2)= \frac{2}{3} \cdot \frac{1}{4} = \frac{1}{6} \\P(W=3, X_1=w) & =P(X_1=w|W=3)P_0(W=3)= 1 \cdot \frac{1}{4} = \frac{1}{4} \\\end{cases}\]

また(1)式の分母である周辺確率は

\[P(X_1=w)=\sum_{W}P(W, X_1=w) = 0+ \frac{1}{12} + \frac{1}{6} + \frac{1}{4} = \frac{1}{2}\]

となり、同様に$P(X_1=w)=\frac{1}{2}$となる。

(1)式にこれらの結果を代入すると

\[\begin{cases}P(W=0|X_1=w) & = 0 / \frac{1}{2} = 0\\ P(W=1|X_1=w) & = \frac{1}{12} / \frac{1}{2} =\frac{1}{6}\\ P(W=2|X_1=w) & = \frac{1}{6} / \frac{1}{2} =\frac{1}{3}\\ P(W=3|X_1=w) & = \frac{1}{4} / \frac{1}{2} =\frac{1}{2}\\ \end{cases}\]

となり、１回目に白ボールが出た場合、確率的には箱の中のボールは全部白の可能性が一番高いと推論できることを示している。

■【ケースB】３回の試行で「白→赤→白」が出た場合

ケースAと同様の考察を繰り返すと良いが力尽きたので気が向いたら追記予定。

要点は、ボールを試行の度に箱に戻すため、Wが決定された状態では、各試行間は独立なので\[P(X_1,X_2,X_3)=P(X_1)P(X_2)P(X_3)\]

となることを利用すれば良い。

ベイズ学習の枠組み①

2021-02-01T14:19:00.000+09:00

ベイズ学習は、観測できない未知の変数$W$の確率分布$P(W)$を、観測された事象（データ）$D$が得られたという条件のもとで推論するものです。すなわち事後分布$P(W|D)$を求める作業になります。

例えば、赤玉と白玉が入っている箱がありそれぞれの色の個数の割合$\theta$が未知である場合、その$\theta$の確率分布$P(\theta)$を箱から無作為に取り出した玉の色のデータ$D$を得られた事実をもとに推論する、すなわち$P(\Theta|D)$を計算するというようなものになります。

もう１つの例としては線形回帰$ y=\boldsymbol{w} \cdot \boldsymbol{x} +b$の学習パラメータ$\boldsymbol{w}$、$b$を未知の変数としその確率分布$P(\boldsymbol{w})$、$P(b)$を観測データ$D$から求める、すなわち$P(\boldsymbol{w}|D)$、$P(b|D)$を計算するというものが挙げられます。

ベイズ学習は一般的に以下の２つのStepで行っていくといえます。

▼ Step1：確率モデルの構築

まず、着目する事象が確率的なプロセスから発生するものだという仮定を置き、そのプロセスをモデル化することから始めます。モデル化には事象間もしくは変数間の関係性をグラフ表現するグラフィカルモデルが有用です。

また事象の確率プロセスがモデル化できるとそれはすなわち変数間の同時確率分布を定式化することになります。

例えば上の赤玉と白玉の割合の例の場合、下左図のようにモデル化することができます。

下図はすなわち、赤玉と白玉の割合自体も確率的に決まっており（$P(\Theta)$）、そこから取り出される玉の色は玉の割合が$\theta$と決まった上での条件付き確率で表されるとモデル化していることになります。

また、線形回帰の例の場合も下右図のようにモデル化することができます(*)。未知のパラメータが確率的に決まっているものとし（$P(\boldsymbol{w})$、$P(b)$）、かつ、データ自体も確率的に発生し、目的変数はそれら確率変数が決定された上での条件付き確率として表現できるというモデリングを行っています。

▼ Step2：推論

Step1で確率モデルが構築できたら、そのモデルと観測データから未知のパラメータの確率分布を推論します。これはすなわち冒頭での話のとおり、観測データ$D$を得た条件下で未知のパラメータがとる条件付き確率$P(W|D)$を推論することに相当します。

ではこの$P(W|D)$はどう計算すれば良いのかを考えていきましょう。条件付き確率の定義から

\[P(W|D)=\frac{P(W,D)}{P(D)}=\frac{P(W,X)}{\sum_W P(W,X)}\]

と書き換えられます。

分子の同時確率はStep1の確率モデルの構築ができた時点で定式化されており求めることができるし、分母は未知のパラメータの取りえる値全てに関して同時確率を足し合わす（周辺化する）ことで求められます。

つまりこの式は、どのような確率モデルの例であっても、同時確率とその未知のパラメータに対する周辺分布を計算することで事後分布$P(W|D)$を推論可能であるということを示していることになります。

実際の複雑な確率モデルを扱う場合、周辺確率を求めるのに非常にコストがかかるためサンプリングや変分法と呼ばれる近似手法によって事後分布を計算するケースが多いですが、おおもとのベイズ学習の発想は「同時確率とその未知のパラメータに対する周辺分布から事後分布を計算する」ということにあることは覚えておいた方が良いでしょう。

次回は、非常に単純なモデルを例に、同時確率とその周辺確率から実際にベイズ推論を行う例を見たいと思います。

(*)図内の四角形で囲った部分は、グラフィカルモデルのプレート図の表現で、独立のN個あるデータを１つにまとめたことを意味しています。

Artificial Life(ALife)とはなにか？

2021-01-17T16:41:00.001+09:00

最近、ちょくちょくと人工生命（Artificial Life: ALife）というワードを聞くようになった。単語から読み取れるところなんとなくイメージできるけど、具体的にどういう研究なのか？どういう応用が期待できるか？人工知能（AI）と何が違うのか？などのイメージが沸かない。

こことここの記事がその疑問を少し解決してくれたので改めて整理したい。

■ キャッチフレーズは "Life as it could be."

人工生命のキャッチフレーズは"Life as it could be"、すなわち「あり得たかもしれない生命」などと言われるらしい。なるほど実際に地球上に存在する（していた）生物について研究する生物学とは異なり、よりメタ的な生命を研究する。つまり「生命」と呼べるものがもつ一般的な性質（生命であるための必要条件）を探ろうという学問と考えられる。そしてその必要条件が何かを探るために、構成論的にボトムアップで生命を作っていこうする。これは意識とは何かを探る、谷口忠大先生の記号創発ロボティクスとアプローチが似ている。

■人工知能との違い

人工知能は人間の知性すなわち、大脳新皮質の部分の役割にフォーカスしているのに対して、人工生命は身体知や生命維持など脳幹が司る知能にフォーカスを与えている。

さらに私が最もガッテンしたのが、適用方法の違い。人工知能は学習、人工生命は「進化」という違いがある。学習はある程度収束するものであるが、進化は終わりなき進化を続けていく（Open-ended evolution）。そして学習が個の範囲で閉じるのに対して進化は集団として個が相互作用しながら長期的、永続的に進んでいくものである違いがある。

少しづつ勉強を進めていこう。

分散や標準偏差のオンライン計算 → Welfordアルゴリズム

2020-11-15T10:58:00.001+09:00

データが逐次追加されていく際に、追加されるたびにその時点での「分散」や「標準偏差」を計算したい場合がある。その時点での全てのデータから毎度計算しても良いが、やはり計算量が馬鹿らしい。そこで欲しくなるのが、これらの量をオンライン（ストリーム処理）で計算できるアルゴリズムだ。

安心してください、ありますよ。「Welford アルゴリズム」というものです。

ここではそのWelfordアルゴリズムを紹介したい。

※以下、不偏分散を考えるが、標本分散の場合でも全く同じ考えが出来る。

■分散と標準偏差

データサンプルが$x_i, \ldots, x_N$で与えられる場合を考えられる。この時、データの不偏分散$s^2$の定義は

\[s^2 = \frac{\sum_{i=1}^N (x_i – \bar{x})^2}{N-1}\]

として与えられる。そして標準偏差$s$はその平方根$s = \sqrt{s^2}$だ。

ここで$\bar{x}$はサンプルの平均、すなわち$\bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$である。

この定義通りに分散を計算する場合、以下の２ステップを辿る。

データ全体の平均$\bar{x}$を計算。
各データ$x_i$と平均$\bar{x}$の差分の二乗を計算。

このような計算は明らかに無駄が多い。まずデータ全体を舐める計算を２回も繰り返す必要がある。また、データ全体に対する計算を行うためにすべてのデータを保持しないといけないので今回の主題であるオンラインの計算をするためにはこのままではダメだ。何か工夫がいる。

■Welfordアルゴリズム

そこでWelfordアルゴリズムでは、サンプルが$N$個の時と$N-1$個の時の分散の差に着目して以下の計算を行う。

\begin{align} &(N-1)s_N^2 – (N-2)s_{N-1}^2 \\ &= \sum_{i=1}^N (x_i-\bar{x}_N)^2-\sum_{i=1}^{N-1} (x_i-\bar{x}_{N-1})^2 \\ &= (x_N-\bar{x}_N)^2 + \sum_{i=1}^{N-1}\left((x_i-\bar{x}_N)^2-(x_i-\bar{x}_{N-1})^2\right) \\ &= (x_N-\bar{x}_N)^2 + \sum_{i=1}^{N-1}(x_i-\bar{x}_N + x_i-\bar{x}_{N-1})(\bar{x}_{N-1} – \bar{x}_{N}) \\ &= (x_N-\bar{x}_N)^2 + (\bar{x}_N – x_N)(\bar{x}_{N-1} – \bar{x}_{N}) \\ &= (x_N-\bar{x}_N)(x_N-\bar{x}_N – \bar{x}_{N-1} + \bar{x}_{N}) \\ &= (x_N-\bar{x}_N)(x_N – \bar{x}_{N-1}) \\ \end{align}

この結果から、下式のようにデータが$N$個の時の分散を$N-1$個の時の分散から求められることがわかる。

\[ s_N^2 = \frac{N-2}{N-1} s_{N-1}^2 + \frac{1}{N-1} (x_N-\bar{x}_N)(x_N – \bar{x}_{N-1}) \]

この結果をもとに分散をオンラインで計算するアルゴリズムに落とすと、下の疑似コードのようになる。（forで各データを逐次回している部分がそれだ）

驚くほど簡単なアルゴリズムだ。

■ライブラリ

簡単なので必要に応じて自分で実装すれば良いが、Python用のライブラリを作ってPypiに登録してみたのでよければそれを使ってみてください。改良点があればGithubリポジトリにIssue投げて頂ければ嬉しいです。

■参考

Gradient Boosting（勾配ブースティング）とは

2020-11-14T10:46:00.000+09:00

最近、Kaggleだとかその周辺では、XGboostだとかcatboostだとか、Gradient Boosting（勾配ブースティング）の手法が流行っているらしい。最終的にcatboostを勉強する目的で、その前段階として勾配ブースティングをひととおり勉強したので、そのメモ。

■Boosting（ブースティング）とは？

ブースティングとはアンサンブル学習の一種で、弱学習機を「積み重ねる」ことで精度を上げようとするもの。下の図がわかりやすいが、バギングは複数の弱学習機を並列に並べてそれぞれの学習機の結果を平均したり投票したりして最終的な結果を出力するもので、Random Forestが代表的な例。一方でブースティングは複数の弱学習機を「直列」に並べてモデルを強化してあげようという思想のもの。具体的な例としてはLS_boostingが挙げられる。この手法は１つ目の弱学習機での回帰残差を２つめの弱学習機で最小化するようにし、さらにその結果の残差を３つめの弱学習機で最小化するようにし・・・・、というふうに学習機を繋いでいく。

ブースティングのアルゴリズムには幾つか種類があり、代表的なのはAdaboostや今回のトピックである勾配ブースティング。

Source

■勾配ブースティングの概要

勾配ブースティングは、超ざっくりでいうと「前の学習機の誤差を埋めるように次の弱学習機を学習させる」ことをしている。

勾配ブースティングアルゴリズムの疑似コードは以下のようなものだ。

ここで、$L$は回帰や分類のLoss関数、$h$は個別の弱学習器、$F_m$は各弱学習器を統合した（つまり繋いだ）加法モデルを示している。

３行目：それぞれのサンプル($i$）についてのLossをその時点（の１つ前）の加法モデルの偏微分（$F$を微小変化させた時の$L$の変化量）のマイナスを$\tilde{y}_i$と計算している。つまりこれはLossを最小にするための勾配降下の方向を示している。
４行目：３行目で求めた勾配降下の方向に最も近くなる修正を加える弱学習器を学習させる。
５行目：４行目で求めた弱学習機をその時点の加法モデルに加える時のパラメータ（学習レート？）を学習。
６行目：４行目と５行目の結果から、加法モデルを決定。

というプロセスを繰り返すアルゴリズムとなっている。

ここで、勾配効果の方向にむけて弱学習器を学習させていくことから「勾配」ブースティングという名前がついているのだ。

■勾配ブースティングの具体例

勾配ブースティング自体は一般的なアルゴリズムのため、そのアルゴリズムの中で利用するLossの種類などは様々なバリエーションが存在する。

最もシンプルな具体的なLossを回帰の二乗誤差とするもので、LS_boosting。

Lossを二乗誤差、つまり$L(y_i, F(\boldsymbol{x}_i))=\frac{1}{2}(y_i - F(\boldsymbol{x}_i))^2$としたときに、３行目の偏微分は

\[\tilde{y}_i= - \left[\frac{\partial L}{\partial F}\right] _{F=F_{m-1}}= - \left[\frac{\partial \frac{1}{2}(y_i - F)^2}{\partial F}\right] _{F=F_{m-1}} = y_i - F_{m-1}\]

となり、一つ前のイタレーションで作成した加法モデルと実測との残差になる。そのため前述したようにLS_boostingはこの残差を最小化するように次の弱学習器を作成するということになる。

■参考

https://www.st-hakky-blog.com/entry/2017/08/08/092031

https://ticc-econometrics.hatenablog.com/entry/gbdt2#fn-6241a4a1

データは寡黙である。

2020-09-26T09:35:00.001+09:00

これまで十数年間、いくつかの企業でデータ分析に携わってきた。その間にビッグデータや人工知能、ディープラーニングというようなバズワードが流行り「データ至上主義」ともいえる風潮が流れ始めているふうに感じる。

確かに画像などの判別技術や購買予測、レコメンデーション技術など、大量データを学習機に食わせて成果を出している分野もある。

しかし、企業でデータ活用として期待されているのはこれらだけでない。それよりも「現在起きている、または予測されることに対してどのようにアクションとるべきか？」をデータから見出すこと（以降、これを「データからインサイトを得る」と表現する）が求められるケースが圧倒的に多い。

注意が必要なのは、「購買予測をする」ことと「より売上を上げるためにとるべきアクションを見出す」ことは全く異なり、またそれに必要な技術も全く別物であることだ。

典型的で有名な例として「アイスクリーム売上と犯罪発生数の関連性」を挙げてみる。下の左のグラフはある町のアイスクリームの売上と犯罪発生数の関連性を示したものだ。グラフから読み取るにアイスクリームの売上が多い時に犯罪発生数が多い関係性が見て取れる。しかしよく言われるように、これは関連性（相関）があるだけで、決して「アイスクリームの売上が増えたから犯罪発生数が増えた」という原因と結果を示しているわけではない。この裏には下右図のように、「気温」というアイスと犯罪の両者の増減に影響を与える共通の要因（交絡因子）が存在し、気温が暑い時にはアイスクリームの売上が増えるのと同時に、イライラして犯罪数も増えることで、直接関係のないアイスと犯罪に関連性が現れているのである（偽相関）。

この例は２つの重要なことを示している。

１つは、「予測する」と「原因と結果の関係性（因果関係）を分析する」は別物であるということである。図から見て取れるようにアイスの売上を説明変数にして犯罪率を予測することは（ある程度の汎化性をもって）可能である。しかし、だからといって犯罪数を減らすためにアイスの売上を減らす（店舗を閉鎖させる）というアクションは全く有効ではないことは自明であろう。

２つめは、ほとんどの場合にデータのみだけでは因果関係はわからないという事実だ。データからわかるのは事象間の関連性（相関）のみであり、原因と結果の関連性を見出すためには、事象の関係に対するその分野での固有の知識（ドメイン知識）が不可欠である。例えば上の例では、「アイスクリームが犯罪の発生に寄与することはないはずだ」、「両者に共通する要因として気温が考えられる」というという事前知識があるが故に本当の因果関係を見出すことができた。

企業でデータ分析の業務を行っていると、データが大量にあればなんでもわかるという誤った神話に苦労することが多い。データは因果分析においては恐ろしいほど寡黙であり、データにドメイン知識を与えて初めてデータが物事を語り始めるということを認識しないといけない。

RandomForestはホントに交互作用を拾うか？

2020-07-23T11:35:00.002+09:00

木構造系のモデルは、分岐の組み合わせにより説明変数間の交互作用もモデルに自動的に組み込まれそうな「気がする」。しかし実際に実際に動かしてそのことを確認した記事がネット上になかったので自分自身で確認することに。

まずはトイデータを用意。ここでX[:, 2]とX[:, 3]が交互作用で目的変数に効くようにしている。X[:, 0]は目的変数には無関係な説明変数。

次に学習＆テストデータセットに分けて学習と予測を行って精度評価してみる。

ここでは比較対象として単純な線形回帰モデルも使っている。

なるほど、ほとんど予測できていない線形回帰と比べてRandomForestは精度良く予測できている。

Importanceも一応見てみると、交互作用に関わる変数のImportanceが高くなっている。

以上、当たり前といえば当たり前だけど実際に確認してみた。

※ ここに元のNotebookを置いています。

ufwでのファイアウォール設定

2020-04-26T06:00:00.002+09:00

ufw(Uncomplicated FireWall)はファイアウォールを設定するコマンドで、iptablesのwrapperのような位置付けのようである。

下記に設定の仕方をメモ。

ジニ係数とは何か？解釈と実装

2019-02-23T12:28:00.000+09:00

決定木にて分類の基準によくジニ係数（Gini inpurity / Gini index）という尺度が使われる。
このジニ係数について少し考察してみたのでメモ。

ジニ係数の定義と挙動

あるデータセット$t$の中に$K$種のクラスのサンプルが含まれる場合、ジニ係数は
\[ I(t)= \sum_{i\neq j} P(C_i|t)P(C_j|t)=\sum_{i=1}^{K} P(C_i|t)(1-P(C_i|t) = 1- \sum_{i=1}^{K}P^2(C_i|t) \] と定義される。ここで$P(C_i|t)$はデータセット$ t $の中に含まれるクラス$ i $のサンプル数の割合である。
この定義式を元に２つのクラス（0, 1)が含まれる２０個のデータを例にクラス0が含まれる数に応じたジニ係数の変化をプロットしたのが下図。期待通りデータセットの中に各クラスのデータが均等に含まれれば含まれるほどジニ係数の値は大きくなり、偏って含まれれる場合は小さくなり、純粋に１つのクラスしか含まれない場合はゼロになる。

ジニ係数の解釈

ジニ係数の定義は「データセットの中から無作為に２つサンプルを取り出したときに異なるクラスのサンプルが取り出される確率」と解釈するとわかりやすい。
データセット$ t $の中から無作為に2回取り出すベルヌーイ試行^*1を考えたときに、同じクラスのサンプルが取り出される確率は$ \sum_{i=1}^{K}P^2(C_i|t) $。その逆で異なるクラスのサンプルが取り出される確率は、$ 1- \sum_{i=1}^{K}P^2(C_i|t)$となり、これがジニ係数の定義と一致するというわけ。

複数データセットでのジニ係数

決定木アルゴリズムでは決定木のノードで元のデータセットを２つ（$L$と$R$）に分割する。そのためこの分割後の２つのデータセット全体の不純度が小さい分割の仕方を選ばないといけない。そのため決定木アルゴリズムでは、 \[ I_{split}(t)= p_{L}I(t_{L}) + p_{R}I(t_{R}) \] の量が最小となる分割方法を見つけることになる^*2。ここで$p_{L}$と$p_{R}$はそれぞれ分割後のデータセットのサンプル数の元のデータセットに対する割合。

ジニ係数と交差エントロピー

はじめてのパターン認識でも書かれているけど、不純度の尺度はジニ係数だけではなく、交差エントロピー \[ I(t)= -\sum_{i=1}^{K}P(C_i|t)\log P(C_i|t) \] も使われることがある。ただし、挙動がほぼ同じということと、ジニ係数であれば、計算コストの高いLogの計算をしなくて良いため、ジニ係数が利用されることが多い様子。

ジニ係数の実装@Python3

折角なのでPythonでジニ係数を計算する関数をPythonで実装してみた。上記$ I_{split}(t)$を計算するコードです。
ここのジニ係数を計算する関数を参考にした。ただしジニ係数の定義上、ジニ係数の計算時に存在するクラスを事前に知る必要がないはず^*3なのでデータセットだけを関数に渡す方式に変更している。
(*1): サンプルを複数回無作為に取り出す際に、一度取り出したサンプルを「戻して」再度サンプルを無作為に取り出す試行。
(*2): 初めてのパターン認識の(11.11)式。
(*3): たとえ対象のデータセットの中に現れないクラスが存在したとしてもそれはジニ係数に寄与しない。

Mac OSXへのoctaveインストール

2018-05-15T11:24:00.000+09:00

会社でcoursera machine learningを受講することになった。
その中で使うoctaveをここらを参考にmac OSX(High Sierra)にインストールしようとして
「brew install octave」コマンドを実行したら

Error: Could not symlink include/octave-4.4.0 /usr/local/include is not writable.

なるエラーが出てインストール（リンク）ができない事態が発生。

色々調べて結局、以下の解決方法で解決。要は自分で/usr/local/includeのディレクトリを作成してから、brew実行する。（インストールは成功しているのでリンクだけ実行）

$ sudo mkdir /usr/local/include
$ sudo chown -R $(whoami):admin /usr/local/include
$ sudo chown -R $(whoami):admin /usr/local/include
$ brew link octave

add-apt-repositoryコマンド実行でエラーが出た時の対処法

2018-01-28T11:40:00.001+09:00

Ubuntu 16.04にて、OSインストール直後の状態ではadd-apt-repositoryのコマンドを実行すると「Command Not Found」エラーが出る。その解消は下記の２つのコマンドを実行すればOK。

$ sudo apt-get update
$ sudo apt-get install software-properties-common

簡単。

Ubuntu16.04でssh接続するために

2018-01-28T11:00:00.001+09:00

Ubuntu16.04はOSインストール直後の状態ではssh接続すらできない。なぜなら、Ubuntuではsshクライアントはデフォルトで入っているけどssh-serverは入っていないから。なのでインストールする。

$ sudo apt-get install openssh-server

ubuntu16.04 で pip3 のアップグレードにハマった。

2017-12-10T09:24:00.000+09:00

ubuntu16.04 で pip3 9.01にアップグレードする時に少しハマったのでメモ。

■ python 2.7のpipのアップグレード
$ sudo pip install --upgrade pip

■ python 3.5 のpip3のアップグレード
$ sudo pip3 install --upgrade pip

※どうも、引数のほうはpip3でなくて「pip」とするところがミソらしい。

MacにHomebrew&gitをインストールする

2017-04-15T09:00:00.002+09:00

Windows機が壊れたのでこの機会にMacbook Proを買った。

開発環境等を作っていく上で、まずはパッケージ管理システムのHomebrewとgitをインストールする。その手順のメモ。

■Javaをインストール

ここにしたがって、Java（JDK）を標準的な方法でインストール。

■Command Line Tools for Xcodeをインストール

XcodeApp Storeからインストール。（ファイルが重いのでかなり時間がかかる・・・）
LaunchpadからXcodeを起動し、ライセンス使用許諾に同意する。
ターミナルを開いて下記のコマンドを実行すると、Command Line Tools for Xcodeをインストールするか？というポップアップが表示されるので、そのままインストールを実行。

$ xcode-select --install

■Homebrewをインストール

公式HPに載っているコマンドを実行。（2017−04−15時点では以下のコマンド）

$ /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

■gitをインストール

実はMacには既にプレインストールされたgitが入っている。ただしバージョンも古いため公式のgitをHomebrew経由でインストールする。

まずは下記のコマンドでプリインストールされているgitのバージョンを確認する。

$ git --version

今回の場合、「git version 2.11.0 (Apple Git-81)」の結果が帰った。

次に下記のコマンドでHomebrewからgitをインストール。

$ brew install git

インストールが完了すると、一度ターミナルを再起動し（再ログインし）、再度先ほどのコマンドでインストールされているgitのバージョンを確認し新しいバージョンのものがインストールされていることを確認する。

python(scikit-learn)で決定木

2014-05-04T19:38:00.000+09:00

ここでRのパッケージを使った決定木による分類の紹介をしていたので、python（というかscikit-learn）でも同じことをやってみた。せっかくなのでこの場で書いておく。

※下記に示したpythonソースはIPythonNotebookにまとめたのでこちらを参照してもらうとよいかも。

■まずは分類したいデータを用意。

ここでは、わかりやすさのために、自家製のデータセットを学習データとして使う。用意したデータは説明変数が実数をとる「x」と「y」の２種類で、目的変数は「0」と「1」の２つのクラスをとるような学習データだ。この学習データの説明変数と目的変数の関係をプロットすると（※１）以下のようになる。青い点が「クラス0」、赤い点が「クラス1」のデータを表わす。

ここと同様にXORパターンデータにしていて、
・クラス0は座標（1,1）と座標（-1,-1）を平均として分散0.5で正規分布
・クラス1は座標（-1,1）と座標（1,-1）を平均として分散0.5で正規分布
するという学習データになっている。

githubに学習データを置いておいた。

■scikit-learnを使って決定木で分類してみる。

教師データからscikit-learnの決定木ライブラリで学習させて、その結果を用いて、新しいデータを与えて分類させる一連のコードを書いた。コードは以下のとおり。
実行結果は、[0 1] となり、つまりは
・ x=2.0, y=1.0 のデータはクラス「0」に分類
・ x=1.0, y= -0.5のデータはクラス「1」に分類
されており、予想どおりの分類結果になってメデタシ、メデタシ。

■分類境界を可視化してみる。

上記の２つのデータでは、それっぽい分類ができているようだけれど、一般的にどう分類されるのかを確認してみる。そのためには上の図の学習データのプロット上に、決定木アルゴリズムの学習結果の分類境界をプロットするのが良いだろう。

可視化のコードは以下のとおり（上述のコードに追記して実行する。）
少々長いけど、やっていることはプロットの領域を細かいメッシュ（xとyをそれぞれ0.05区切り）に分けて、それぞれの点で学習結果からどちらに分類されるかを全て計算し、その結果（それぞれ0,か1の値）を等高線プロットしている。

★上述のコードに追記して実行する。
実行結果は以下の図のようになる。

本当の正解（第１&3象限は青（クラス0）で、第2&4象限は赤（クラス1））を知っている人間としては
少々複雑に分類しすぎているとも思えるけれど、与えられた有限個の学習データをキチンと分類できていることが見て取れます。（データのない所は正しく学習できないのは当たり前）

先に学習結果から分類した２つのデータ（2.0, 1.0)と（1.0, -0.5）は、それぞれ前者が上図の青の領域内、後者が赤の領域内にあったから、それぞれ青と赤に分類されたことになる。

■実際の決定木を可視化

他の分類アルゴリズムと比べたときの決定木の良さは、学習データを元にどのように分類されていっているのかを簡単に知ることができるところだ。

結局のところ決定木のアルゴリズムは、学習データをきれいに分類できる説明変数の閾値を探してその閾値で分類した各グループをさらに他の閾値で分類していく、If-Elseロジックを繰り返していっているだけである。If-Elseの数だけ判断の分岐が増えていきまるで木のような構造になるから「決定木」と呼ぶわけだ。

Python(scikit-learn)でも閾値によるの分岐の可視化もできるので、実際に出力してみて、上図の境界がどのように境界が決められていっているのかを見てみる。

出力方法は、scikit-learnのライブラリで、決定木のツリーをdot言語で記述したdotファイルを出力し、それをgraphvizのような可視化ツールでツリー構造を可視化する流れになる。

dotファイルは以下のコードで出力する（前の２つのコードの後に追記して実行）。

これを実行して出力した「xor_simple.dot」ファイルをgraphvizをつかって出力すると以下の図になる。(実際のツリー構造ははもっと大きいが一部だけをここでは表示している。）

この木構造が示しているのを一部説明すると、まず決定木は、

X[1]（これは説明変数「y」のライブラリ内部での名称）が1.862以下か否かを判定。（一番上部のノード）
上記の判定で「NO」の場合、それをクラス「0」とする。今回の学習データの場合、３つのデータが該当する。（上から２番目、右側のノード）
上記判定で「YES」の場合、２つめの閾値判定として、「X[0]（これは説明変数「x」のライブラリ内部での名称）が1.9746以下か否か」の判定を行う。この判定を行うのは今回の学習データの場合77個（上から２番目、左側のノード）
以下同様の繰り返し

というようなIF-ELSEの判定を繰り返すことで分類が行われることを示している。

■汎化（剪定）

上記のような決定木のツリー構造をより深くしていき、学習データのほとんど全ての点を正しく分類するようにしても構わないが、いわゆる過学習の状態になりうる。そのため汎化性能を下げるような余分なツリー部分の判定ロジックを削る（つまり剪定（pruning））作業が必要になる。しかし、残念ながらその剪定アルゴリズムは現バージョンのscikit-learnのライブラリではサポートしていない・・・
そのため、剪定についてはこの場では割愛。もし必要であればこことかこの本のP183~P187を参照してほしい。

以上。

（※１）プロット用のpythonのソースはここ。

（※２）ここと同様に、少し複雑にするように、XORパターンのデータを用意した。

nginxのインストールからマルチドメインの設定まで（@CentOS）

2014-03-02T12:34:00.002+09:00

サイトを立ち上げる必要があったので、CentOSにnginxのインストールからマルチドメインの設定までの作業をした。今回はその時のメモ。（参考サイトはココと、ココと、ココ）

■マルチドメインとは？

マルチドメインは１つのサーバ（IPアドレス）で、複数のドメインを管理できること。

例えば、「aaa.comとbbb.comの２つドメインでそれぞれのサイトを立ち上げたいけど、今のところそんなにアクセス数もないのでサイト毎にサーバを用意するのはリソース（≒お金）の無駄だなー」という時に、重宝する。

マルチドメインは、Webサーバアプリケーション（ここではnginx）のバーチャルサーバ機能（※１）を利用して行う。

nginx は、（ブラウザからの）HTTP リクエストヘッダの “Host”情報を読み取り、どのコンテンツを返すべきかを判定する（参考→nginx公式解説ページ）（※２）。

■作業環境

今回の作業環境は以下のとおり。

サーバ：さくらインターネットのVPS
OS： CentOS 6
ドメイン：さくらインターネットであらかじめ２つのドメインを取得し、それぞれのドメインで上記VPSのIPアドレスへ紐づけの設定が完了している。

■手順１（nginxのインストールまで）

▼CentOSに、nginx用のyumリポジトリを登録するRPMをインストール

nginx公式ページで、CentOS 6 用のRPMのURLを調べて、以下のコマンドを実行する。

# rpm -ivh http://nginx.org/packages/centos/6/noarch/RPMS/nginx-release-centos-6-0.el6.ngx.noarch.rpm
（ここで、http://～.noarch.rpmは、上記の公式ページで調べたRPMファイルのURL）

上記を実行したら、「/etc/yum.repos.d/nginx.repo」というファイルが作成されているはずなので、確認。

▼yumでnginxをインストールし、動作確認

nginxをyumでインストールする。

# yum install nginx

インストール後、nginxを起動。

# /etc/init.d/nginx start

ブラウザからサーバのURL（※３）にアクセスしてみて、nginxのwelcomeページが表示されればOK。

■手順２（nginxのバーチャルサーバ機能の設定完了まで）

▼設定ファイルを置くためのディレクトリを作成

以下のコマンドを実行。

# mkdir /etc/nginx/sites-available
# mkdir /etc/nginx/sites-enable

これから、運用する個々のドメイン用の設定ファイルを「sites-available」以下において、その設定ファイルを参照するシンボリックリンクを「sites-enable」以下に配置し、nginx自体はそのシンボリックリンクを参照するようにしていく（※４）。

▼個々のドメイン用の設定ファイルを作成＆配置

sites-availableディレクトリ以下に、それぞれのバーチャルホスト用の設定ファイルを作成する。ファイル名は「aaa.com」のようにドメイン名と同一にしたほうが運用しやすい。
作成内容は下記の参照のこと。
例えば「vi /etc/nginx/sites-available/aaa.com」コマンドで以下の編集をする。

# For aaa.com
server {
listen 80;
server_name aaa.com www.aaa.com; #ドメイン名の指定。サブドメインも指定可。

access_log /var/log/nginx/access.aaa.com.log; #アクセスログの保存先もドメイン毎に。

location / { #コンテンツの置き場所も、ドメイン別に分けておく。
root /usr/share/nginx/html/aaa.com;
index index.html;
}
}

上記と同じものをバーチャルサーバをつくる分だけ作り配置する。（たとえばbbb.com用など）

次に、ここで作った設定ファイルをsite-enableディレクトリ側から参照するシンボリックリンクをはる。

# ln -s /etc/nginx/sites-available/aaa.com /etc/nginx/sites-enable/
# ln -s /etc/nginx/sites-available/bbb.com /etc/nginx/sites-enable/

▼nginxが上記で作成した設定ファイルを参照するように設定。

viで「/etc/nginx/nginx.conf」に、

include /etc/nginx/sites-enable/*;

の行を加える。（他のinclude節の直後に配置しとけばよい）

▼それぞれのドメイン用コンテンツを作成。

「site-available」以下に配置したドメイン毎の設定ファイル内でlocationのrootとして設定したディレクトリを作成。

# mkdir /usr/share/nginx/html/aaa.com
# mkdir /usr/share/nginx/html/bbb.com

作成後、それぞれのディレクトリ配下に、適当な「index.html」を作成し配置しておく。（あとで接続試験をするため）

▼設定の確認→nginx再起動→接続試験

設定に不備がないかをテストツールでテストする。問題がなければ「test is successful」のような表示がされる。

# /etc/init.d/nginx configtest

設定に問題がなければ、nginxを再起動。

# /etc/init.d/nginx restart

再起動後、それぞれのドメイン（今回はaaa.com、bbb.com）にブラウザからアクセスし、それぞれ意図通りのコンテンツが表示されれればOK。

以上。
意外に簡単だったので、よかった。（ここに書いているようにデフォルトバーチャルホストを設定したほうが良いかもだけど、それは今後の課題ということで。）

（※１） apacheでも同じ機能があり、「バーチャルホスト機能」と呼んでる。
（※２）ちなみに、仕組み上HTTPリクエストヘッダに"Host"情報を入れないブラウザでアクセスされた場合には、上手く動かない。ただそのようなブラウザはよっぽど古いブラウザだけで、現在はほとんど、Host情報を入れるようになっている。
（※３）ドメイン名がまだない場合は、例えばhttp://xxx.xxx.xxx.xxxなど。ここでxxx.xxx.xxx.xxxはサーバのIPアドレス。
（※４）なぜシンボリックリンクで参照させるかというと、サイトを一時的に停止したい場合、sites-enable以下のシンボリックリンクを消すだけでOKになるという運用上のメリットがあるから。

行列の対角化とは何か？

2014-02-11T15:31:00.002+09:00

「はじめてのパターン認識」の観測データの無相関化の節を読んでいて、行列の対角化ってなんだっけ？という、そもそものところでつまづいたので（※１）、行列の対角化について、ここで少し整理しようと思う。

今回は純粋に線形代数学の話題に終始して、本来のデータの無相関化については、また後日書く予定。

■対角化を理解するまでの道筋

すこし長くなるので、「行列の対角化とは何か？」を理解するための道筋を整理すると

固有値と固有ベクトルの意味を理解する。
固有ベクトルを並べた変換行列の性質を理解する。
対角化操作を理解する。

になると思う。というわけでこの道筋に従って話しを進めようと思う。

なお、ここでは話しの分かりやすさを優先するので、数学的な一般性（※２）はひとまずおいておいて、わかりやすいシチュエーションの話だけをしていきたいと思います。一般的な状況でのより詳しいことはここ（PDF）を参照すると良いです。（上記、１、２の話題について、非常にわかりやすく整理＆説明されています。）

■固有値と固有ベクトルの意味を理解する。

▼固有値と固有ベクトルの定義

まずは、固有値、固有ベクトルを定義をしておくと以下のとおり。

任意の正方行列 $A$ について, $A \mathbf{v} = \lambda \mathbf{v}$を満たす $\lambda $ を$A $ の固有値といい、$\mathbf{v} $ を$A $ の固有ベクトルという.

n次の正方行列にはn個の固有値とそれに対応した固有ベクトルを持つ（※３）。

▼固有値と固有ベクトルの意味

上記の定義だけだといまいちなので、これらが図形的に何を意味しているのかを少し説明しておく。

一般にベクトル$\mathbf{v} $ に行列$A $を作用させるということは、ベクトルを線形変換しそのベクトルの「方向」と「長さ」を変更する操作にあたる。

たとえば、
行列$A=\left(
\begin{array}{cc}
3 & 1 \\
2 & 4 \\
\end{array}
\right)$
をベクトル $\mathbf{v} = (5, 1)^T$ （下図：青）に作用させた場合、作用後のベクトルは$A\mathbf{v} = (16, 14)^T$（下図：赤）になる。行列を作用させることによって方向と長さが変更されたことがもわかる。

今回は２次元行列を考えているので、２次元の$\mathbb{R}^2$空間でのベクトルは（２つ特別なベクトルを除いて）どんなベクトルも上の例と同じように方向が変更される。

その２つの特殊なベクトルが固有ベクトルであるわけだ。

固有ベクトルの定義を見直すとわかるとおり、固有ベクトルに行列$A $を作用させても、元のベクトルの定数倍（固有値倍）にしかならない。つまり「方向が変更されない」のである。

実際の例を見てみよう。行列$A $の固有値は、$\lambda_1 = 5$, $\lambda_1 = 2$の２つであり、それに対応する固有ベクトルは、$\mathbf{u}_1 = (1, 2)^T$, $\mathbf{u}_2 = (1, -1)^T$である（※４）。例えばそのうちの1つの固有ベクトル$(1,2)^T$に行列$A $を作用させると$(5,10)^T=5(1,2)^T$であり元のベクトルの固有値（定数）倍で方向は変わらないのである。下図はそれを図示したもので、青が行列$A $作用前、赤が作用後のベクトルとなっている。わざわざ図示するまでもないけれど、方向に変化がないことがわかる。

$\mathbf{x} = a_1 \mathbf{u}_1 + a_2 \mathbf{u}_2$
というように、固有ベクトルを線形結合することで、２次元$\mathbb{R}^2$空間の任意のベクトル$\mathbf{x}$が表現できることに注意すると、任意のベクトルに行列$A $を作用させるということは、
$A\mathbf{x} = a_1 A \mathbf{u}_1 + a_2 A \mathbf{u}_2 = a_1 \lambda_1 \mathbf{u}_1 + a_2 \lambda_2 \mathbf{u}_2$
であり、それぞれの固有ベクトル方向に固有値倍ずつ伸縮結果に他ならない。

■固有ベクトルを並べた変換行列の性質を理解する

行列Aに、一次独立なn個の固有ベクトルが存在し、それを並べた
$P=(\mathbf{u}_1, \cdot\cdot\cdot , \mathbf{u}_n)$
を考える。
このとき、基底ベクトル $\mathbf{e}_i (i = 1, 2, ..., n )$に$P$を作用させると、
$P\mathbf{e}_i = \mathbf{u}_i$
と固有ベクトルに変換されることがわかる。
結果、任意のベクトル
$\mathbf{x} = \sum_{i=1}^n a_n \mathbf{e}_i$
に$P$を作用させると
$P\mathbf{x} = P \sum_{i=1}^n a_n \mathbf{e}_i = \sum_{i=1}^n a_n P\mathbf{e}_i = \sum_{i=1}^n a_n \mathbf{u}_i $

と変換される。

先述の具体的な行列を例に見ていく。

固有値ベクトルを並べた変換行列$P = (\mathbf{u}_1,\mathbf{u}_2)$を考える。この行列を基底ベクトル、
$\mathbf{e}_1 = (1, 0)^T$,$\mathbf{e}_2 = (0, 1)^T$
に作用させると、
$P\mathbf{e}_1 = (1, 2)^T = \mathbf{u}_1$, $P\mathbf{e}_2 = (1, -1)^T = \mathbf{u}_2$
となり、基底を固有空間に移す行列になっていることがわかる。
例えば、

$\mathbf{x} = (5, 1)^T = 5\mathbf{e}_1+ \mathbf{e}_2 $

に$P$を作用させると、

$P\mathbf{x} = 5\mathbf{u}_1+\mathbf{u}_2$

となる。

■対角化操作

上記のように、変換行列を書けることで、任意のベクトルを基底$\mathbf{e}_i (i = 1, 2, ..., n )$での表現から、行列Aの固有ベクトルの固有空間の表現に変換される。
このような変換後、行列Aを作用させると$\mathbf{u}_i$は向きが変わらず、長さが $\lambda_i$倍になるだけ。
\[AP\mathbf{x} = A \sum_{i=1}^n a_n \mathbf{u}_i = \sum_{i=1}^n \lambda_i a_i \mathbf{u}_i \]

これにさらに$P^{-1}$を作用させると$\mathbf{u}_i$は元の$\mathbf{e}_i$に戻り、

\[P^{-1}AP\mathbf{x} = \sum_{i=1}^n \lambda_i a_i P^{-1}\mathbf{u}_i = \sum_{i=1}^n \lambda_i a_i \mathbf{e}_i \ = D\mathbf{x}\]
ここで、
\[
D = \left(
\begin{array}{cccc}
\lambda_1 & 0 & \cdots & 0 \\
0 & \lambda_1 & \cdots & 0 \\
\vdots & \vdots & \ddots & 0 \\
0 & 0 & \cdots & \lambda_n
\end{array}
\right)
\]

となり、$P^{-1}AP$が対角化行列となるわけである。

（追伸）
ここで使った図はpython&matplotlibを使って描いた。そのソースはここを参照のこと。

（※１）昔は、嫌というほど線形代数学を勉強したのに、情けない話だ・・・
（※２）固有値が重解になる場合はどうなんだ、とかそんな話。
（※３）固有値が重解を持つ場合などは、一見 n個よりも少ない固有値しかないようにみえることもあるが・・・。また、回転行列は実数の固有値はないが、複素数まで考えるとちゃんと固有値を持つ。
（※４）求め方はやはりここ（PDF）が参考になる。
（※５）つまり、２つの固有ベクトルが２次元$\mathbb{R}^2$空間の基底であるということ。

rpy2をインストールする。

2014-02-04T16:20:00.001+09:00

IPython NotebookからRを利用するためには、Rmagicという機能拡張を使えばいいとのことなのだけど、これがrpy2というライブラリを使うため、これをインストールしなくてはならない。
折角なので、今回行ったインストール手順をまとめておく。

■インストール

▼前提

Windows7で、pythonとRはインストールされているものとする。

▼RのPATHを設定しておく。

これをしないと・・・

インストールの時に「Error: Tried to guess R's HOME but no R command in the PATH.」と、Rが見つからないよ！と怒られます。
pythonでモジュールをimportする際に、「RuntimeError: R_HOME not defined.」とか、「RuntimeError: R_USER not defined.」とか怒られます。

スタート＞「コンピューター」を右クリック＞プロパティ＞左パネルの「システムの詳細設定」＞環境変数を開きます。その画面で次の３つを設定。

ユーザー環境変数のPATHを編集し、R.exeのあるbinフォルダをセミコロンで区切って末尾に追記します。つまり「;C:\Program Files\R\R-2.15.3\bin」(←僕の環境の場合)を末尾に追加する。
システム環境変数で、以下のPATHを追加。

変数名「R_HOME」、変数値「C:\Program Files\R\R-2.15.3」（←僕の環境の場合）
変数名「R_USER」、変数値「xxxx」（xxxxはWindowsのログイン名）

▼pipでインストール

上記で環境変数を指定した後、コマンドプロンプト(*1)を開き

$pip install rpy2

と打つ。簡単！

▼pipでエラーが出る場合・・・

環境によっては、pipでインストールしようとしたら、

"C:\PROGRA~1\R\R-215~1.3\bin\R" CMD config --ldflags
Invalid substring

みたいなエラーが出る場合がある（*2）。

この場合は、このページの環境に合わせたバイナリ（僕の環境の場合はrpy2 2.3.9.win32 py2.7.exe）をダウンロードし、あとはダブルクリックでインストールすればよい模様（参考）。

▼確認

コマンドプロンプトなりでpythonを起動して

import rpy2.robjects as robjects

を打って、エラーとかでないと、とりあえずインストール成功！

■Rmagic

rpy2をインストールしたら、IPython NotebookでRmagicを使ってRのコマンドが使えるようになる。

使い方はココが分かりやすい。

(*1)Windows標準のコマンドプロントでもいいし、scipyスタックのanacondaを使ってる場合、「anaconda command prompt」でもいい。ただしどちらの場合も、環境変数の更新を行った場合には、プロンプトを開きなおさないと環境変数の設定変更が反映されないことに注意！（これでだいぶハマッた）

(*2) 僕の職場のPCへのインストールはこれでハマる (+_+)。

秩序と情報とブロッコリー

アブダクション

含意（AならばB）の真理値表

PythonでMecabを使う （Unidic辞書編）

F1スコアについて（メモ）

仮説検定に関するメモ

ベイジアンネットワーク①

■ はじめに

■ ベイジアンネットワークとは？

■ 同時確率と条件付き確率

■ベイジアンネットワークでの同時確率

■ 具体例

行列の冪乗と固有値の関係について

ベイズ学習の枠組み②

■【ケースA】１回の試行で「白」が出た場合

▼確率モデルの構築

▼推論

■【ケースB】３回の試行で「白→赤→白」が出た場合

ベイズ学習の枠組み①

▼ Step1：確率モデルの構築

▼ Step2：推論

Artificial Life(ALife)とはなにか？

■ キャッチフレーズは "Life as it could be."

■人工知能との違い

分散や標準偏差のオンライン計算 → Welfordアルゴリズム

■分散と標準偏差

■Welfordアルゴリズム

■ライブラリ

Gradient Boosting（勾配ブースティング）とは

■Boosting（ブースティング）とは？

■勾配ブースティングの概要

■勾配ブースティングの具体例

■参考

データは寡黙である。

RandomForestはホントに交互作用を拾うか？

ufwでのファイアウォール設定

ジニ係数とは何か？解釈と実装

ジニ係数の定義と挙動

ジニ係数の解釈

複数データセットでのジニ係数

ジニ係数と交差エントロピー

ジニ係数の実装@Python3

Mac OSXへのoctaveインストール

add-apt-repositoryコマンド実行でエラーが出た時の対処法

Ubuntu16.04でssh接続するために

ubuntu16.04 で pip3 のアップグレードにハマった。

MacにHomebrew&gitをインストールする

■Javaをインストール

ここにしたがって、Java（JDK）を標準的な方法でインストール。

■Command Line Tools for Xcodeをインストール

■Homebrewをインストール

■gitをインストール

python(scikit-learn)で決定木

■まずは分類したいデータを用意。

■scikit-learnを使って決定木で分類してみる。

■分類境界を可視化してみる。

■実際の決定木を可視化

■汎化（剪定）

nginxのインストールからマルチドメインの設定まで（@CentOS）

■マルチドメインとは？

■作業環境

■手順１（nginxのインストールまで）

▼CentOSに、nginx用のyumリポジトリを登録するRPMをインストール

▼yumでnginxをインストールし、動作確認

■手順２（nginxのバーチャルサーバ機能の設定完了まで）

▼設定ファイルを置くためのディレクトリを作成

▼個々のドメイン用の設定ファイルを作成＆配置

▼nginxが上記で作成した設定ファイルを参照するように設定。

▼それぞれのドメイン用コンテンツを作成。

▼設定の確認→nginx再起動→接続試験

行列の対角化とは何か？

■対角化を理解するまでの道筋

■固有値と固有ベクトルの意味を理解する。

▼固有値と固有ベクトルの定義

▼固有値と固有ベクトルの意味

■固有ベクトルを並べた変換行列の性質を理解する

■対角化操作

rpy2をインストールする。

■インストール

▼前提

PythonでMecabを使う（Unidic辞書編）