チェビシェフの不等式のかんたん理解

どのような標本・確率分布でも・・・平均から 2標準偏差以上離れた値は全体の 1/4 を超えることはなく、
一般にn標準偏差以上離れた値は全体の \frac{1}{n^2} を超えることはない。
    >> wikipedia:チェビシェフの不等式 より.

式で表すと、

  P( |x - \mu| \geq a \sigma) \leq \frac{1}{a^2}
  P() は、カッコの中が成り立つ確率、という意味。
  μは平均。|x-μ| は、個々のデータの値と平均との偏差のこと。
  σ は標準偏差
  a には任意の数を当てはめることができる。
* そんなの常識、あたりまえでない大数の法則 >> http://miku.motion.ne.jp/stories/08_LargeNum.html

このように書くと何だかとても難しいことのように思えますが、実はアタリマエのことを言っているに過ぎません。

● 最も単純な標準偏差1の分布

最も単純な標準偏差1の分布は、データが +1と -1の、2個だけというものでしょう。

 標準偏差σ = √{ (1^2+ (-1)^2) / 2 } = 1。
この状況をチェビシェフの不等式にあてはめると、
『平均0から、1標準偏差以上離れた値は全体の 1/1 を越えることは無い』
つまり、全部のデータを1よりも遠くに引き離すことはできない、ということを言っています。
試しにデータを少しだけ動かして +1.1 と -1.1 にしたならば、それに合わせて標準偏差も 1.1 と大きくなります。
ならば、+1.1 と -0.9 といった具合に動かしてみると、今度は平均が 0.1に上がるだけで、
やはりどちらのデータも標準偏差の1.1を上回る(あるいは-0.9を下回る)ことはありません。


つまり標準偏差とは、データを2個の点で代表させたとき、その広がり方のこと』だったのです。
平均値を『データを1個の点で代表させたとき、その値のこと』だと考えれば、
標準偏差とは、いわば“平均値の2個版”だと見なせます。
データが2個だったとき、チェビシェフの不等式が主張する通り「どのデータも標準偏差を超えることはない」、
・・・そもそも2個のデータの隔たりのことを標準偏差と呼んでいたのだ、と理解できます。

標準偏差が2を越える分布

次に、一部のデータが標準偏差2を越えるような、なるべく単純な分布を考えてみましょう。
2個のデータを +2と -2 に置いて、これらがちょうど標準偏差2に位置するように調整すると、こうなります。

データを +2 と -2 に1個ずつ、あとは0を6個配置する。
最も隔たりの大きい +2, -2 のデータをちょうど標準偏差2の位置に持ってくるには、
標本全体としての標準偏差を1に調整しなければなりません。
それには、±2の広がりを打ち消すだけのデータを平均の0に置く必要があります。
(必ずしも0に置かなくても良いのですが、0に置くのが標準偏差を縮めるには最も効率的です。)
標準偏差を1に保つには、
 { (+2)^2 + (-2)^2 } / (全データの個数) = 1
となるので、(全データの個数) = 8 だと分かります。
このとき、標準偏差2を越える(2以上の)データは8個中2個なので、
確かにチェビシェフの不等式が主張する通り 1/2^2 = 1/4 となっています。

標準偏差がNを越える分布

同じことを、標準偏差3を越える場合で考えると、こうなります。

データを +3 と -3 に1個ずつ、あとは0に16個配置する。
 (全データの個数) = 3^2 × 2
  ・なぜ2乗するかというと、そもそも分散とは各データの偏差の2乗の合計だったからです。
  ・なぜ2倍するかというと、プラス側とマイナス側で2倍になるからです。

標準偏差4を越える場合は、こうなります。

データを +4 と -4 に1個ずつ、あとは0に30個配置する。
 (全データの個数) = 4^2 × 2

標準偏差Nを越えるデータを1個置きたかったなら、N^2 個より多くのデータを0に置く必要がある』
これが、チェビシェフの不等式の意味するところだったのです。