因子分析の固有値・固有ベクトルって何?

おかげさまで、「統計データをすぐに分析できる本」が発売されました。

統計データをすぐに分析できる本――社長から「コレを分析して」と言われても困らない!

統計データをすぐに分析できる本――社長から「コレを分析して」と言われても困らない!

こうして形になると、素直に嬉しいです ヾ(´∀`)ノ♪
この本を作るにあたって、幾つかの原稿はページの都合上ボツとなっています。
その中の1つに、「因子分析の固有値固有ベクトルって何?」というものがあります。
固有値固有ベクトルというものは統計入門の鬼門で、まともに始めるとドップリ数学に浸らないといけません。
何とか簡単なイメージだけでも伝えられないかと思って用意したのが、以下の説明です。
本に載せられなかったので、おまけとしてここに公開しておきます。


                                                                                                                                              • -

主成分分析・因子分析をひもとくと、固有ベクトル固有値という、謎の専門用語が出てきます。そして、辞書の類で固有ベクトル固有値を調べても、ほとんど意味が分かりません。でも、大丈夫です。目前の分析という目的からすれば、固有ベクトル固有値の数学的な意味を深く理解する必要はありません。とはいえ、大まかなイメージを掴んでおくことは、全くのブラックボックスより望ましいでしょう。固有ベクトル固有値のおよその意味は、次の通りです。

・行列による変換で、向きの変わらない軸があったとき、その軸の向きを固有ベクトルと言う。

・軸の上にあるデータを行列によって変換したとき、何倍に拡大(縮小)するか、その比率のことを固有値と言う。

向きの変わらない“軸”が出てきたところから想像が付くのですが、この固有ベクトルの算出こそが、主成分分析・因子分析の中心となる手順なのです。以下、最も単純な変数が2個の場合について、固有ベクトル固有値の概念を俯瞰しましょう。

 まず、上の説明で出てきた「行列」とは何かと言うと、ここでは相関行列を意味します。相関行列とは、複数の変数間の相関係数を、一覧表のように並べたもののことです。(分散・共分散行列を用いる場合もありますが、この説明では相関行列の方を使います。)変数が2個だけの場合、相関行列は以下のような2x2の表になります。



      [変数A]  [変数B]
  [変数A]  1   (相関係数)
  [変数B] (相関係数)  1


表の中に数字は4個出てきますが、変動する数字は以下の理由により、事実上1個だけです。

・自分同士の相関係数は1なので、対角線上の数字は必ず1になる。

・AとBの相関係数と、BとAの相関係数は同じなので、対角線を挟む反対側の数字は同じになる。

 この相関行列によって、“データを変換する”とはどういうことか。それは、行列の掛け算の規則に従って、データの点を移動することを意味します。以下の図では、グラフ上の点が変換によって、どのように動くのか、その流れを矢印で示してあります。

この図を見ると、データが斜め45度の線に向けて集まってくる様子がわかります。この、斜め45度の線が即ち固有ベクトルであり、“軸”なのです。この場合、変換によって動かない軸は2本あります。データが集まってくる、右上がりの軸と、データが離れてゆく、右下がりの軸です。(相関係数が正の場合。負の場合には逆になります。)2変数の相関行列の場合、固有ベクトルは必ず斜め45度の線となります。なぜかと言うと、標準化の手続きを経て、縦と横の重みを同じに揃えたからです。相関係数の大きさを変えると、データの集まり方が変わってきます。相関係数が1の場合、データは一気に45度の線上に集まって、一直線に潰れたような様相を呈します。つまり、データはもともと45度の線上にしか存在していないということです。相関係数が小さくなるにつれ、線に集まってくる度合いも小さくなります。そして、相関係数が0になると、全く線には集まってこない、つまり全くバラバラな状態のままとなります。この、データの集まり具合が、「固有値」という数字に反映されています。固有値が大きいほど、データは軸に沿って拡大されるように動き、反対に固有値が小さければ、データは軸に沿って縮小されるように集まってきます。

 ところでなぜ、このような行列の計算を行うと、軸が出てくるのでしょうか。直観的に言えば、固有ベクトルの方向に、データが最も大きく伸び縮みするからです。軸というのは、データが最も大きく分散している方向のことでした。軸を探すのは、行列の変換に置き換えると、最も大きくデータが伸びる方向を探すのと同じことです。行列による変換は、データの分散が最大になる方向を、上手く探し当てる手段だったというわけです。

 主成分分析・因子分析の計算の中身は、上に示したような行列の変換を行って、不動の軸と、集まり方を集計することだったのです。その軸の呼び名と、集まり方の呼び名が「固有ベクトル」と「固有値」ということです。分析では、固有値の大きさ(と標準化した際の値)から、各変数の成分の大きさを決定しています。

                                                                                                                                              • -


過去記事:
* 固有ベクトルが直交するのは >> [id:rikunora:20090307]
* 固有ベクトルが直交するのは(2) >> [id:rikunora:20110203]

さて、こうして本が仕上がったので、年末年始はヒマになったのかというと・・・
実は、来年に向けてもう1冊、本を作成することになりました。
この事態に、我ながら驚きです。なんというか、ビッグデータ、統計ブームすごいです。
年末年始は本の作成に全力投球します。