人気投票はベキ分布

ネット上でもよく見かける「人気投票」。
投票結果を見ると、だいたい上位の少数が大多数の票を獲得しているように見えませんか。
いわゆる人気の一極集中化現象です。
聞くところによると、こうした人気ランキングは「ベキ分布」に従うことが多いそうです。
本当にそうなっているのか、確かめてみました。

今回はこのサイトにあった投票結果を取り上げてみました。
* ライトノベル法研究所 -- 高得点作品掲載所
>> http://www.raitonoveru.jp/novel/okidenn.html
なぜこのデータを選んだかって? あまり特別な理由はありません。
サイズが手頃で扱いやすかったのと、ライトノベルに興味があったってことですね。
 ・エントリーしているライトノベル数: 197
 ・総投票数: 2354
投票結果を集計して、ヒストグラムを作ってみました。
結果は、下のグラフの左側の赤い方。

横軸の階級の幅は、18票ごとに区切ってあります。
つまり、階級1は0〜18票獲得した作品の数です。
得票1位は158票でした。これが階級8に入っています。
(この18票という中途半端な階級の幅は「スタージェスの公式」から求めたものです。
 階級の数 = 1+log2(サンプル数))
グラフを見ると、大半の作品が階級1に留まっていて、そこからごく少数の作品だけが抜きんでていることが分かります。
右側の青いグラフは、比較のために並べた指数分布のグラフです。
古典的な考え方だと、こうした投票結果は指数分布になりそうに思えます。
もし一定数の票を、エントリーした作品に対して全くランダムにばらまいたら、結果は指数分布になるからです。
ところが実際の結果は、指数分布よりももっとカーブがきついと言うべきか、もっと極端な一極集中になっています。
両者の違いは、グラフの縦軸を対数に描き直してみれば(片対数グラフにすれば)はっきりします。

人気投票結果は、対数目盛に直してもなお下に凸型のカーブを描いています。
指数分布であったなら、右側のグラフのように、直線となっているはずです。

それでは、人気投票結果は本当に冪乗則に従っているのか。
今度は結果を両対数グラフにプロットしてみました。

このプロットが一直線になれば、冪乗則に従っていると言えるのですが・・・
どうでしょうか、わりといい感じで直線っぽくなってますね。
プロットの右側は、比較のために指数関数を両対数で描いたものです。
指数関数の場合には、上にふくらんだ曲線になっています。
グラフから、およその傾きを読み取ることができます。
横軸の10と、縦軸の100を結んだ線が、傾き−2ですから、
おおざっぱに言って
  (同じ階級にある小説の数) = 1 / (階級)^2
となっているわけです。
もともと1階級あたり18票としてカウントしていましたから、
  (同じ票を獲得した小説の数)/18 = 1 / (18 * 票の数)^2
 = (同じ票を獲得した小説の数) = 1 / 18 * (票の数)^2
ですね。
この傾き−2というのは、いつでも成り立つ普遍的な法則なのでしょうか?
もしそうだとしたら、人気投票というのは、ちょうど重力場のように逆二乗の力で人を引きつけているのだと言えそうです。

試しにちょっと調べてみただけで、ここまで上手く冪乗法則が成り立っているとは、驚きでした。
(決して都合の良いデータを選んできた訳ではない)
冪乗法則に興味を持ったのは、この本がきっかけです。

経済物理学の発見 (光文社新書)

経済物理学の発見 (光文社新書)

(前回のエントリー[id:rikunora:20090818]でも紹介しましたが、再掲)
古典的な統計は、何と言っても正規分布を中心に組み立てられています。
(上の人気投票の例では、正規分布ではなくて指数分布が古典的な考え方に相当します)
ところが実際には、為替や株価の変動など、様々な社会現象は正規分布よりもむしろベキ分布に従っているとのこと。
ベキ分布」というキーワードでググってみると、こんな記事がありました。
* DESIGN IT! w/LOVE -- 流入キーワードもベキ分布だった!
>> http://gitanez.seesaa.net/article/22472562.html
なるほど、「流入キーワード」「参照元」などもベキ分布に従っている。
こうなるとWebアクセスについては、ベキ分布を基本に考えないといけないでしょうね。
この他にも、いろんなところに冪乗法則が見出せそうです。