有意水準はなぜ0.05がよく使われるのか?

統計学の検定で、有意水準といえば5%である。
有意水準とは、ある仮説の下でそれより低い確率でしか起こらないはずのことが観測されたら、それはたまたまでなく意味が有り、その仮説が誤っていると判断する、確率のしきい値のことである。
1%もよく使われるし、5%に限らないと教わるが、使われるのは圧倒的に5%=0.05である。
何故0.05かについては、筆者は寡聞にして、これまで根拠や由来を目にしたことが無かった。

数ヶ月前にある所で、この0.05は統計学の大家であるフィッシャーが決めたもので、その理由は、フィッシャーが30歳の頃に、研究者としてあと20年仕事して引退するとして、その内1年くらいは失敗するだろうと思ったから、というような話を聞いた。
その話に興味を持って、結構時間をかけてWeb検索してみたのだが、それに近い話は1つも見つからなかった。有名な話なら1つくらいは見つかりそうなものなので、この話が有名だという仮説は棄却するしかなさそうだ。

有意水準として0.05という数字を最初に記したのはフィッシャーだという話はすぐに大量に見つかった。
いくつか読んだので、筆者なりにまとめておく。

"On the Origins of the .05 Level of Statistical Significance"より:

Fisher's (1925) statement in his book, Statistical Methods for Research Workers, seems to be the first specific mention of the p=.05 level as determining statistical significance.
It is convenient to take this point as a limit in judging whether a deviation is to be considered significant or not. Deviations exceeding twice the standard deviation are thus formally regarded as significant. (p. 47)

参考リンク[2]からダウンロードできる"Statistical Methods for Research Workers"の5th editionではp.45だが、上記引用部の少し前から引用すると、

The value for which P=.05, or 1 in 20, is 1.96 or nearly 2; it is convenient to take this point as a limit in judging whether a deviation is to be considered significant or not. Deviations exceeding twice the standard deviation are thus formally regarded as significant.

となっており、これが歴史上初めて、有意水準を0.05とすると便利だと記したものということらしく、至る所に引用されている。
便利である理由は、平均μ、標準偏差σの正規分布に従う確率変数がμ±2σの範囲外の値を取る確率(つまり、平均から標準偏差の2倍以上外れる確率)がほぼ5%でわかりやすいから、と読み取れる。

In the 1926 article Fisher acknowledges that other levels may be used:
If one in twenty does not seem high enough odds, we may, if we prefer it, draw the line at one in fifty (the 2 per cent point), or one in a hundred (the 1 per cent point). Personally, the writer prefers to set a low standard of significance at the 5 per cent point, and ignore entirely all results which fail to reach this level. A scientific fact should be regarded as experimentally established only if a properly designed experiment rarely fails to give this level of significance. (p. 504)

この部分も多数引用されているが、5%にしても2%にしても1%にしても良いが、Fisher自身は5%を好む、とだけ書かれており、特別に理由があった訳ではないと読める。

そもそもFisher以前から大体5%くらいの値が使われていたことについて、以下のように書かれている。

With respect to the determination of a level of significance, Student's (1908) article, in which he published his derivation of the t test, stated that "three times the probable error in the normal curve, for most purposes, would be considered significant" (p. 13).

ここで"probable error"というのは、平均からの25%点や75%点までの距離であり、標準偏差が広く使われる前によく使われていた統計量で、値としては標準偏差の約2/3である。

In any case, it is clear that as early as 1908 X ± 3PE was accepted as a useful rule of thumb for rejecting differences occurring as the result of chance fluctuations.

Student(William Gosset)は正規分布において3PEが有意だと記しており、遅くとも1908年には3PEが有意水準として受け入れられていた、とある。

A fact that would have been no surprise to most of those reading his book (and which, indeed Fisher pointed out) is that "a deviation of three times the probable error is effectively equivalent to one of twice the standard error" (Fisher, 1925, pp. 47-48).
Fisher then cannot be credited with establishing the value of the significance level. What he can perhaps be credited with is the beginning of a trend to express a value in a distribution in terms of its own standard deviation instead of its probable error.

それを受けてFisherは3PE ≒ 2σだと書いており、Fisherは有意水準を0.05とした人というよりは、"probable error"の代わりに標準偏差を使い始めた人と言えるだろう、とある。

"Why P=0.05?"より:

The impact of Fisher's tables was profound. Through the 1960s, it was standard practice in many fields to report summaries with one star attached to indicate P 0.05 and two stars to indicate P 0.01, Occasionally, three starts were used to indicate P 0.001.

検定の計算表でp≦0.05, p≦0.01, p≦0.001をそれぞれ *, **, *** と表すのは、今でもよく使われるが、Fisherに由来するらしい。ここでも有意水準として0.05が出てくる。

For such procedures to be effective, it is essential ther be a tacit agreement among researchers to use them in the same way. Otherwise, individuals would modify the procedure to suit their own purposes until the procedure became valueless. As Bross (1971) remarks,
Anyone familiar with certain areas of the scientific literature will be well aware of the need for curtailing language-games. Thus if there were no 5% level firmly established, then some persons would stretch the level to 6% or 7% to prove their point. Soon others would be stretching to 10% and 15% and the jargon would become meaningless. Whereas nowadays a phrase such as statistically significant difference provides some assurance that the results are not merely a manifestation of sampling variation, the phrase would mean very little if everyone played language-games. To be sure, there are always a few folks who fiddle with significance levels--who will switch from two-tailed to one-tailed tests or from one significance test to another in an effort to get positive results. However such gamesmanship is severely frowned upon and is rarely practiced by persons who are native speakers of fact-limited scientific languages--it is the mark of an amateur.

Fisherは有意水準を5%に限らないとしたが、後世の人は、確立した5%という基準があることが無意味な言葉遊びを生じなくしている、その反面、5%にこだわる余りに両側検定でなく片側検定にしたり、5%以下を達成するために検定方法を変えたりするアマチュアが居る、と書いている。

"Fisher and the 5% Level"より:

Table VI gave only the P = .05 percent points for the distribution of z (the log of the F-statistic) by numerator df and denominator df, for df = 1, 2, 3, 4, 5, 6, 8, 12, 24, ∞. By the third edition (1930), he had added a table giving the 1% points and enlarged the range of denominator df considerably.

Fisherの"Statistical Methods for Research Workers"の初版には、F分布表はp=0.05のものしか記載されていなかったと書かれている。
参考リンク[2]からダウンロードできる5th editionの巻末のTable VIにはp=0.01の表も含まれているが、http://psychclassics.yorku.ca/にある"STATISTICAL METHODS FOR RESEARCH WORKERS"の初版のTABLE VIには確かにp=0.05の表しか無い。
なお、"Statistical Methods for Research Workers"のF分布表の数値は、普段我々が目にするF分布表の値の自然対数の1/2になっており、分散比との比較に使う値ではなく、標準偏差の比の対数との比較に使う値のようだ。

参考リンク
[1] Michael Cowles & Caroline Davis, "On the Origins of the .05 Level of Statistical Significance", 1982
[2] R. A. Fisher, "Statistical Methods for Research Workers" fifth edition, 1934
[3] Gerard E. Dallal, "Why P=0.05?"
[4] Stephen Stigler, "Fisher and the 5% Level"
[5] Lynn D. Torbeck, "On the Verge of Significance: Why 5%"
[6] Carl Anderson, "What's the significance of 0.05 significance?"
[7] 奥村 晴彦, http://oku.edu.mie-u.ac.jp/~okumura/stat/basics.html
 下の方に、Fisherが5%を好むとしたことについて言及あり
[8] Regarding p-values, why 1% and 5%? Why not 6% or 10%? - Cross Validated


筆者はこれまで、正規分布において、μ±2σの外側の確率が約0.05=1/20、というのは奇跡的にきりが良くて精度の高い近似であり、0.05が有意水準としてよく使われる理由にもなっていると思い込んでいたが、今回の調査をする過程で、他にもμ±zσの外側の確率pは
z=1 => p=0.317 ≒1/3 (誤差約5%)
z=2 => p=0.0455 ≒1/20 (誤差約10%)
z=3 => p=0.00270 ≒1/400 (誤差約8%)
z=4 => p=0.0000633 ≒1/16000 (誤差約1%)
とそれぞれきりの良い数字で近似ができることを知って、計算してみるとこの中でz=2でp=1/20というのが一番悪い近似だということがわかって驚いた。
同じような誤解をしてる人は意外に多く居るのではないだろうか。