練習のべき乗則

『練習は裏切らない。』
この言葉の真偽に一石を投じる、驚くべき研究結果があります。

* 第50回 練習の効果 >> http://www.pitecan.com/articles/WiredVision/wv50/index.html
木村氏は、吉澤章氏の「創作折り紙」という本で紹介されている「みそさざい」という作品を15万回折り続け、折るのにかかった時間がどのように変化したかを記録しました。

その結果、折るのに要した時間は、練習回数の対数に比例するという、
「練習のべき乗則」(Power law of Practice) に従うことが明らかになりました。
『意外性に魅せられて約10年続けました』なのだそうです。
* 中京大学 人工知能高等研究所ニュースNo.17
>> http://www.iasai.sist.chukyo-u.ac.jp/pdf/iasai_news17.pdf

15万回、10年という努力は並大抵ではありませんが、数十回程度の繰り返しであれば、日常の中でもよく行うことがあります。
そうした作業を繰り返すと、慣れることによって、どれほど作業時間が短くなるのか。試しに測ってみました。
実際に私が試したのは「答案の採点」という作業です。
75枚の答案の採点にかかった時間をストップウォッチで測り、まとめた結果がこのグラフです。

グラフ中に引いた曲線は、(採点の秒数) y = 0.1681 x ^ (-0.269) という累乗曲線。
なるほど、かかった時間はおおむね「練習のべき乗則」に一致しています。
同じ内容ですが、グラフを両対数で描き直したものが下になります。

ここで、直線が「練習のべき乗則」なので、全体の傾向としては合っています。

Wikipediaの「学習曲線」によると >> wikipedia:学習曲線

ピロリとアンダーソンは a 、b の実測値をそれぞれ1.40、0.24と求めた。
  {\displaystyle RT=1.40N^{-0.24}={\frac {1.40}{N^{0.24}}}}
この式はかなり普遍的に成り立つ。

この 0.24 という冪乗の定数 b は、私の測定値では 0.269、なので、確かに近い値になりました。
一方、折り紙の方はグラフから見ると 0.172(あるいは 0.2166)となっており、かなり違っているように見えます。
(係数 a は単位の取り方によるように思えるのだが、、、よくわからん。)
また、以下の論文では b = 0.269 、奇しくも私の値と一致していました。
* スキル学習におけるスランプ発生に対する事例分析的アプローチ
>> https://www.jstage.jst.go.jp/article/tjsai/23/3/23_3_86/_pdf
こうして見ると、べき乗則自体は普遍的に成り立ちそうですが、
その定数値まで普遍的というのは疑念の余地があり、やはり作業内容によって変わってくると思うのです。

■ 気付いたこと

* べき乗則は確かに有用.
たった75回程度でも「練習のべき乗則」が見えてくるとは驚きです。
最初にかなり時間がかかったのは、解答が本当に妥当かどうか、文献にあたって調べた時間などが含まれています。
それが後半になると、似たような解答は覚える、途中の過程まで覚えて一目で点数が分かる、などの効果が実感できました。
練習のべき乗則は、ちょっとした繰り返し作業にも十分有効なのです。

* 時間がかかるのは記述の読み取り.
テストの採点で最も悩むのは、記述式の解答を読み取って、意図を解釈することです。
テスト問題のように限定された状況下でさえ、答は予想以上にバラエティに富んでいます。
「なるほど、そう来たか」と唸るような解答も少なくありません。
こうした解答の意図を汲み取り、解答者がどのように考えたのか推測を巡らせるところが採点の奥深さなのです。
さらに、当たらずとも遠からずといった解答に、どれだけ部分点を配点するかが悩みどころです。
全体として不公平にならないように、こっちに点数を付けたなら、あっちにも点数が付かないとおかしいぞ、
といった調整を図ることになります。これが難しい。
採点時間の上下動は主に、こうした解答の解釈・調整に充てられています。
この点が、折り紙のように均質な作業と、採点のように1つ1つが異なる作業との違いで、採点時間が大きくばらつく理由です。
それでも実際に測ってみると、解釈に悩む時間はせいぜい数十秒程度であることも分かりました。

* 満点と0点は採点が早いか.
良くできた模範答案と、その反対に白紙に近い答案は、採点時間があまりかかりません。
評価に悩むことが無いからです。
正直、みんなが100点取ってくれれば、採点する側はとても楽です。
評価に悩むのは上位層でも下位層でもない、最も数の多い中間層です。
このことは体感的には明らかなのですが、それが採点時間に表れているでしょうか。
そこで、テストの点数と採点時間の関係をプロットしたのが、このグラフです。

中央付近が膨らんでいるように見えなくもないのですが、今ひとつはっきりしません。
それでも「90点以上は採点に2分かかっていない」というのは事実です。
さらに採点への慣れの影響を除くため、(テストの点数)×(べき乗則からの残差)をプロットしてみました。

グラフからはっきりした傾向は読み取れません。
中間層では「大きく時間がかかる場合もある一方、さっさと済んでしまうものもあり、振れ幅が大きい」
というのが事実のようです。

いずれにせよ、もしべき乗則が普遍的なら、最初の伸び方を見て、その後、どの程度練習すればどこまで伸びるかの予測が立つはずです。
この予測をもとに、どこまで練習すべきか、あるいはどこで練習を打ち切るべきかの判断が付くわけで、これは極めて有用なルールと言えるでしょう。

「みそさざい」の折り紙。折ってみました。