因子分析の固有値・固有ベクトルって何？

おかげさまで、「統計データをすぐに分析できる本」が発売されました。

統計データをすぐに分析できる本――社長から「コレを分析して」と言われても困らない!

作者: 中西達夫
出版社/メーカー: アニモ出版
発売日: 2013/12/13
メディア: 単行本（ソフトカバー）
この商品を含むブログ (2件) を見る

こうして形になると、素直に嬉しいですヾ(´∀｀)ﾉ♪
この本を作るにあたって、幾つかの原稿はページの都合上ボツとなっています。
その中の１つに、「因子分析の固有値・固有ベクトルって何？」というものがあります。
固有値・固有ベクトルというものは統計入門の鬼門で、まともに始めるとドップリ数学に浸らないといけません。
何とか簡単なイメージだけでも伝えられないかと思って用意したのが、以下の説明です。
本に載せられなかったので、おまけとしてここに公開しておきます。

- - - - -

主成分分析・因子分析をひもとくと、固有ベクトル、固有値という、謎の専門用語が出てきます。そして、辞書の類で固有ベクトル、固有値を調べても、ほとんど意味が分かりません。でも、大丈夫です。目前の分析という目的からすれば、固有ベクトル、固有値の数学的な意味を深く理解する必要はありません。とはいえ、大まかなイメージを掴んでおくことは、全くのブラックボックスより望ましいでしょう。固有ベクトル、固有値のおよその意味は、次の通りです。

・行列による変換で、向きの変わらない軸があったとき、その軸の向きを固有ベクトルと言う。

・軸の上にあるデータを行列によって変換したとき、何倍に拡大（縮小）するか、その比率のことを固有値と言う。

向きの変わらない“軸”が出てきたところから想像が付くのですが、この固有ベクトルの算出こそが、主成分分析・因子分析の中心となる手順なのです。以下、最も単純な変数が２個の場合について、固有ベクトルと固有値の概念を俯瞰しましょう。

　まず、上の説明で出てきた「行列」とは何かと言うと、ここでは相関行列を意味します。相関行列とは、複数の変数間の相関係数を、一覧表のように並べたもののことです。（分散・共分散行列を用いる場合もありますが、この説明では相関行列の方を使います。）変数が２個だけの場合、相関行列は以下のような２ｘ２の表になります。

　　　　　　[変数A]　　[変数B]
　　[変数A]　　1　　　(相関係数)
　　[変数B]　(相関係数)　　1

表の中に数字は４個出てきますが、変動する数字は以下の理由により、事実上１個だけです。

・自分同士の相関係数は１なので、対角線上の数字は必ず１になる。

・ＡとＢの相関係数と、ＢとＡの相関係数は同じなので、対角線を挟む反対側の数字は同じになる。

　この相関行列によって、“データを変換する”とはどういうことか。それは、行列の掛け算の規則に従って、データの点を移動することを意味します。以下の図では、グラフ上の点が変換によって、どのように動くのか、その流れを矢印で示してあります。

この図を見ると、データが斜め４５度の線に向けて集まってくる様子がわかります。この、斜め４５度の線が即ち固有ベクトルであり、“軸”なのです。この場合、変換によって動かない軸は２本あります。データが集まってくる、右上がりの軸と、データが離れてゆく、右下がりの軸です。（相関係数が正の場合。負の場合には逆になります。）２変数の相関行列の場合、固有ベクトルは必ず斜め４５度の線となります。なぜかと言うと、標準化の手続きを経て、縦と横の重みを同じに揃えたからです。相関係数の大きさを変えると、データの集まり方が変わってきます。相関係数が１の場合、データは一気に４５度の線上に集まって、一直線に潰れたような様相を呈します。つまり、データはもともと４５度の線上にしか存在していないということです。相関係数が小さくなるにつれ、線に集まってくる度合いも小さくなります。そして、相関係数が０になると、全く線には集まってこない、つまり全くバラバラな状態のままとなります。この、データの集まり具合が、「固有値」という数字に反映されています。固有値が大きいほど、データは軸に沿って拡大されるように動き、反対に固有値が小さければ、データは軸に沿って縮小されるように集まってきます。

　ところでなぜ、このような行列の計算を行うと、軸が出てくるのでしょうか。直観的に言えば、固有ベクトルの方向に、データが最も大きく伸び縮みするからです。軸というのは、データが最も大きく分散している方向のことでした。軸を探すのは、行列の変換に置き換えると、最も大きくデータが伸びる方向を探すのと同じことです。行列による変換は、データの分散が最大になる方向を、上手く探し当てる手段だったというわけです。

　主成分分析・因子分析の計算の中身は、上に示したような行列の変換を行って、不動の軸と、集まり方を集計することだったのです。その軸の呼び名と、集まり方の呼び名が「固有ベクトル」と「固有値」ということです。分析では、固有値の大きさ（と標準化した際の値）から、各変数の成分の大きさを決定しています。

- - - - -

過去記事：
* 固有ベクトルが直交するのは >> [id:rikunora:20090307]
* 固有ベクトルが直交するのは(2) >> [id:rikunora:20110203]

さて、こうして本が仕上がったので、年末年始はヒマになったのかというと・・・
実は、来年に向けてもう１冊、本を作成することになりました。
この事態に、我ながら驚きです。なんというか、ビッグデータ、統計ブームすごいです。
年末年始は本の作成に全力投球します。