Amazonに見る小さなビッグデータ

Amazonサイト上で、1冊の本のランキングを追跡すれば、書店全体の売上傾向がわかる。
そんなことを数理的に詳しく調べた研究があります。

著者である服部哲弥先生の解説ページはこちら
この"ランキング本"の帰結によると、Amazonは実はロングテールビジネスではない、とのことです。
一方、Wikipedia の「ロングテール」の項目には
「代表的なオンライン小売店の1つである「Amazon.com」(アマゾン社)を例に説明する。」
と記されているくらいですから、これはかなり意外な結果ではないでしょうか。>> wikipedia:ロングテール
果たして本当にAmazonロングテールでは無いのか、上記"ランキング本"に従って検証してみました。

"ランキング本"の調査方法では、たった1冊の本の経過を調べれば充分であるとのこと。
そこで、サンプルとして、この本のランキングを1ヶ月間調べました。

悩めるみんなの統計学入門 - 統計学で必ず押さえたい6つのキーワード

悩めるみんなの統計学入門 - 統計学で必ず押さえたい6つのキーワード

わざとらしく拙著なのですが(^_^;)、やっぱり売上げが気になるし。
約1ヶ月間の順位変動は、このようになっていました。

全体の順位変動をグラフにすると、こうなりました。

オレンジ色が全体での順位、その右側の3列は各カテゴリー内の順位です。
下はカテゴリー内の順位変動のグラフ。

基本的には全体と同じ動きをしていますが、まれに全体とカテゴリー内で異なる動きをすることがあります。
結果表のグレーに塗った部分に食い違いが出ています。
食い違いの理由は分かりませんが、恐らく更新タイミングが異なるなどの、Amazon内部の事情と思われます。
以下ではカテゴリー内順位は気にせず、全体の順位変動だけを元に分析を進めます。

全体のグラフを見ると、前半はグシャグシャしていますが、後半に2つの「ヨットの帆」のような形をした曲線が見られます。
この「ヨットの帆」の意味は何だろうか・・・
きっと、本が1冊売れたら、飛躍的に順位が上がるのでしょう。
"ランキング本"では、以下の仮定をしいて、順位変動が「ヨットの帆」になる理由を説明しています。

・1回売れたら、その本は順位の列の先頭=1位に跳ぶ。
・各々の本が売れる確率はジップの法則に従う。

これらの仮定を元にすると、順位変動の流体力学的極限は以下の式で表されるのだそうです。
  [Xc(t)=N(1-e^{-at}+(at)^{b}\Gamma (1-b,at))]

ここで、N は本の総数。"ランキング本"では 80万冊と見積もっていました。
a は最も売れていない本の注文頻度。"ランキング本"では(5冊/年)との見積り。
b は本の“平等性”を表すパラメータで、ロングテールか、ビッグヒット支配かの指標となります。
要は順位変動グラフに現れる「ヨットの帆」に上の数式をあてはめれば、“平等性”がわかる、というわけです。

調べた順位データに数式をあてはめてみたところ、以下のようになりました。

ここで、本の総数 N は、"ランキング本"の調査以降に書籍が増えていると見て、100万冊としています。
a の値は、"ランキング本"と同じ(5冊/年)としました。
結果、気になる b の値として、1つ目のヨットの帆からは b=0.892377、2つ目からは b=0.749528 を得ました。
"ランキング本"には b=0.809 という値が記されていたので、大まかには一致していると言えそうです。

さて、この b の値“平等性”の読み方なのですが、"ランキング本"によると、

・b が 1 より小さければ、ビッグヒット支配
・b が 1 より大きければ、ロングテールビジネス

というシンプルな切り分けが成立しています。
今回の結果は b < 1 なので、やはり Amazonはビッグヒット支配型であると言えます。

ところで、上の議論の中心である数式はどのようにして導かれたのか。
詳細は"ランキング本"に譲るとして、ここではシミュレーションによって「ヨットの帆」の挙動を見てみましょう。

* Amazonランキングのシミュレーション >> http://brownian.motion.ne.jp/memo/AmazonRank/


[Start!]ボタンを押すと、100回の販売試行を行います。
シミュレーションの後、各書籍の販売回数と、着目する本の順位変化のグラフが出力されます。
このシミュレーターで“平等性”の指数 b を変化させて、書籍の売上げ(販売回数)を比較しました。

このグラフは、本の順位x売上回数を、“平等性”の指数 b を変えて集計したものです。
販売回数は、b の値ごとにそれぞれ3回シミュレーションを行った結果の合計値です。
グラフではでこぼこして見づらいのですが、b の値が小さいほど、
左端のビッグヒット側の立ち上がりが急で、右に伸びるロングテールが細くなっています。
販売回数を上位10冊と、残りの90冊で分けてカウントすると、
 b = 0.8 のとき、上位 10% が総販売回数の 73% を占め、
 b = 1.0 のとき、上位 10% が総販売回数の 55% を占め、
 b = 1.2 のとき、上位 10% が総販売回数の 44% を占めていました。

ただ1冊の「ヨットの帆」から、書店全体の売上傾向が推し量れる。
実に鮮やかな結果です。