多変量解析おすすめフリーソフト

「多変量解析を、ちょっと試してみたいのですけど、何か良いフリーソフトないですか?」
そんな人におすすめしたいのが >> College Analysis です。
* 社会システム分析ソフトウェア -- College Analysis Ver.4.0
>> http://www.heisei-u.ac.jp/ba/fukui/analysis.html
福山平成大学の福井正康先生が、1人でコツコツ作り上げたソフトウェアで、
基本統計、多変量解析の他、OR、意思決定支援、おまけにカオス・フラクタルの表示まで付いています。
開発過程を見ると、実際に授業で使われたソフトウェアの集大成になっているようです。

システムの利点:
* 教育経験に基づいているので、求めたいものへ簡単にたどり着ける。
  学生が戸惑わないように、できるだけ一発解答を心がけています。
* 無料である。
  これはフリーソフトです。ご自由に何人でもお使い下さい。もちろん再配布も可能です。

統計解析のソフトウェアは、市販、フリーを問わず、世にたくさんあります。
市販ソフトには SPSSSAS などといった有名どころがありますが、
個人が気軽に利用できるといった感じではありません。
フリーウェアは >> R言語 が定番ですが、使いこなせるようになるまでの敷居が高い。
エクセル+アドオンで、少し気の利いたことをしようとすると、
マクロだのシートの記述だのがゴチャゴチャになってイライラしてくる・・・
そうした中にあって、この College Analysis は「手軽に試せる」領域をカバーする、
ちょうどいい感じのソフトに仕上がっています。

以下、College Analysis の使い勝手を紹介します。
とはいえ、全機能の紹介するのは無理なので、ここでは1例として「ツンデレキャラを見分ける判別分析」をやってみます。
分析内容は前回のエントリー >> [id:rikunora:20110802] を見てください。
分析の元データをこちらに用意しました >> TsundereData.txt
実際に >> College Analysis Ver.4.0 をダウンロードして、試してみると良いでしょう。

■起動画面
College Analysis を起動すると、こんな画面になります。

エクセルのシートのように、データを表形式で入力する「グリッドエディタ」があります。
ただし「グリッドエディタ」はエクセルと違って、縦方向(Row)にデータを並べ、横方向(Column)に変数を並べるものと決まっています。

■データの読み込み
データを入力する方法は主に3通りあります。
 1.「グリッドエディタ」上で直接入力する。
 2.エクセルからコピー、ペーストしてもってくる。
 3.テキストファイルを読み込む。

College Analysis は、エクセルからコピー、ペーストしてデータを持ってくることを想定して作られています。
なので、2.の方法が最も簡単です。
コピペ以外の方法として、カンマ区切りのテキストファイルを読み書きすることもできます。
ただし、テキストファイルには形式が定められていて、最初にページ数や行数を記述する必要があります。


ページ数(n),最大行数(mr),最大列数(mc)
ページ1 行数(r1),ページ1 列数(c1)
予備,フィールド名1,フィールド名2, … ,フィールド名c1
レコード名1, data11, data12, data13, … , data1c1
レコード名2, data21, data22, data23, … , data2c1
  ・・・・・・・・・・・・・・・・・・

今回の >> TsundereData.txt が、この形式のテキストファイルです。
テキストファイルの読み込みは、[ファイル]メニュー → [開く] から行います。

■分析手法の呼び出し

[分析]メニューの中に、利用できる分析手法が入っています。
今回は、[分析]メニュー → [多変量解析等] → [判別分析] を呼び出します。

■判別分析

これが判別分析のダイアログです。
基本的な操作は、まず [変数選択] して、次に [判別分析] [判別得点] で結果を見る、ということです。

■変数選択
[変数選択] ボタンを押すと、こんな変数選択ダイアログが現れます。

今回は [All] ボタンを押して、全ての変数を選択しました。

■分析結果
以上で準備は完了。あとは [判別分析] で結果を見るだけ。

この結果の見方が一番難しいところですが・・・
 判別関数: ここにある係数を使って、線形判別関数が作れます。
  (判別スコア) = (身長) x 0.1434 + (体重) x -0.2146 + (髪の色相) x 62.8062 -17.5080
 F検定値: その変数が、どれほど結果に効いているかを表す数値。
  今回の結果を見ると、(身長)と(体重)は、あまり効いていないみたいです・・・
 確率: F検定値と同様、その変数が、どれほど結果に効いているかを表す数値。
  この確率の数字は、小さいほど間違いなく効いているという意味になります。
結果の下半分は、分析結果がどれくらい当たっているのかを示す数字です。
詳しいことは、配布元のテキストを見ましょう。
* 3章 判別分析 (PDF)
>> http://www.heisei-u.ac.jp/ba/fukui/pdf/mstattext03.pdf

■判別得点

[判別得点] ボタンを押すと、今回作った判別関数を各データにあてはめた結果を一覧表示します。
今回の場合、判別得点がプラスに大きいほどツンデレグループ寄り、
マイナスに大きいほど非ツンデレグループ寄り、ということです。

ざっとこんな感じ。分析といっても、要はデータを読み込んで、ボタンを押すだけ。
これと、前回やった判別分析のエクセルを比べてみてください >> エクセルファイル(Tsundere.xls)
どれほど手間が違うか、わかるでしょう。

以上のように、この College Analysis、たいへん優れもののソフトなのですが、1つだけ重大な欠点があります。

システムの欠点:
1.ちゃんとしたマニュアルがない。
2.ヘルプがない。

このソフトには、配布元のページにある資料以外、使い方の解説が見当たらない。
それが普及を阻んでいる最大の理由だと思うのです。
・・・ってことは、つまり、この場で使い方を書けってことなのかな?
いずれ時間がとれれば、多変量解析の部分だけでも使い方をまとめたいと思っています。

※こちらで使い方の記事がスタートしました。T_NAKAの阿房ブログ
>> College Analysis を使ってみる(1)_簡単な試行(データ入力)
>> College Analysis を使ってみる(2)_簡単な試行(問題を解く)
>> College Analysis を使ってみる(3)_簡単な試行(問題を解く)