Amazonに見る小さなビッグデータ
Amazonサイト上で、1冊の本のランキングを追跡すれば、書店全体の売上傾向がわかる。
そんなことを数理的に詳しく調べた研究があります。

Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書)
- 作者: 服部哲弥
- 出版社/メーカー: 化学同人
- 発売日: 2011/05/30
- メディア: 単行本
- 購入: 4人 クリック: 551回
- この商品を含むブログ (26件) を見る
著者である服部哲弥先生の解説ページはこちら。
この"ランキング本"の帰結によると、Amazonは実はロングテールビジネスではない、とのことです。
一方、Wikipedia の「ロングテール」の項目には
「代表的なオンライン小売店の1つである「Amazon.com」(アマゾン社)を例に説明する。」
と記されているくらいですから、これはかなり意外な結果ではないでしょうか。>> wikipedia:ロングテール
果たして本当にAmazonはロングテールでは無いのか、上記"ランキング本"に従って検証してみました。
"ランキング本"の調査方法では、たった1冊の本の経過を調べれば充分であるとのこと。
そこで、サンプルとして、この本のランキングを1ヶ月間調べました。

悩めるみんなの統計学入門 - 統計学で必ず押さえたい6つのキーワード
- 作者: 中西達夫
- 出版社/メーカー: 技術評論社
- 発売日: 2010/11/19
- メディア: 単行本(ソフトカバー)
- 購入: 14人 クリック: 585回
- この商品を含むブログ (12件) を見る
わざとらしく拙著なのですが(^_^;)、やっぱり売上げが気になるし。
約1ヶ月間の順位変動は、このようになっていました。
全体の順位変動をグラフにすると、こうなりました。
オレンジ色が全体での順位、その右側の3列は各カテゴリー内の順位です。
下はカテゴリー内の順位変動のグラフ。
基本的には全体と同じ動きをしていますが、まれに全体とカテゴリー内で異なる動きをすることがあります。
結果表のグレーに塗った部分に食い違いが出ています。
食い違いの理由は分かりませんが、恐らく更新タイミングが異なるなどの、Amazon内部の事情と思われます。
以下ではカテゴリー内順位は気にせず、全体の順位変動だけを元に分析を進めます。
全体のグラフを見ると、前半はグシャグシャしていますが、後半に2つの「ヨットの帆」のような形をした曲線が見られます。
この「ヨットの帆」の意味は何だろうか・・・
きっと、本が1冊売れたら、飛躍的に順位が上がるのでしょう。
"ランキング本"では、以下の仮定をしいて、順位変動が「ヨットの帆」になる理由を説明しています。
・1回売れたら、その本は順位の列の先頭=1位に跳ぶ。
・各々の本が売れる確率はジップの法則に従う。
これらの仮定を元にすると、順位変動の流体力学的極限は以下の式で表されるのだそうです。
ここで、N は本の総数。"ランキング本"では 80万冊と見積もっていました。
a は最も売れていない本の注文頻度。"ランキング本"では(5冊/年)との見積り。
b は本の“平等性”を表すパラメータで、ロングテールか、ビッグヒット支配かの指標となります。
要は順位変動グラフに現れる「ヨットの帆」に上の数式をあてはめれば、“平等性”がわかる、というわけです。
調べた順位データに数式をあてはめてみたところ、以下のようになりました。
ここで、本の総数 N は、"ランキング本"の調査以降に書籍が増えていると見て、100万冊としています。
a の値は、"ランキング本"と同じ(5冊/年)としました。
結果、気になる b の値として、1つ目のヨットの帆からは b=0.892377、2つ目からは b=0.749528 を得ました。
"ランキング本"には b=0.809 という値が記されていたので、大まかには一致していると言えそうです。
さて、この b の値“平等性”の読み方なのですが、"ランキング本"によると、
・b が 1 より小さければ、ビッグヒット支配
・b が 1 より大きければ、ロングテールビジネス
というシンプルな切り分けが成立しています。
今回の結果は b < 1 なので、やはり Amazonはビッグヒット支配型であると言えます。
ところで、上の議論の中心である数式はどのようにして導かれたのか。
詳細は"ランキング本"に譲るとして、ここではシミュレーションによって「ヨットの帆」の挙動を見てみましょう。
* Amazonランキングのシミュレーション >> http://brownian.motion.ne.jp/memo/AmazonRank/
[Start!]ボタンを押すと、100回の販売試行を行います。
シミュレーションの後、各書籍の販売回数と、着目する本の順位変化のグラフが出力されます。
このシミュレーターで“平等性”の指数 b を変化させて、書籍の売上げ(販売回数)を比較しました。
このグラフは、本の順位x売上回数を、“平等性”の指数 b を変えて集計したものです。
販売回数は、b の値ごとにそれぞれ3回シミュレーションを行った結果の合計値です。
グラフではでこぼこして見づらいのですが、b の値が小さいほど、
左端のビッグヒット側の立ち上がりが急で、右に伸びるロングテールが細くなっています。
販売回数を上位10冊と、残りの90冊で分けてカウントすると、
b = 0.8 のとき、上位 10% が総販売回数の 73% を占め、
b = 1.0 のとき、上位 10% が総販売回数の 55% を占め、
b = 1.2 のとき、上位 10% が総販売回数の 44% を占めていました。
ただ1冊の「ヨットの帆」から、書店全体の売上傾向が推し量れる。
実に鮮やかな結果です。