« 統計学復習メモ2: t分布と不偏分散 | メイン | 統計学復習メモ4: (思考実験)学力偏差値と合格率 »

 統計学復習メモ3: 視聴率調査と標本数

TVの視聴率ってどうやって測ってるんだろう?というのはよく聞かれる問いであるし、モニターとして選ばれたいくらかの数の一般家庭に視聴率計測用の機器を取り付けて測っているのだ、というのはよく言われる答えである。そのモニターの数は、一例では関東・関西で600世帯、その他の地域は200世帯、とも言われる。

たったそれだけ?ある番組を20人が見てれば視聴率10%?学校の1クラスより少ない。それではたまたまその番組が好きな人が2人多めや少なめにモニターに入ってれば、すぐ1%くらい変わってしまうじゃないか、そんな値を信用できるのか、そんな値に意味はあるのか?
…とか書くと、貴様本当に大学を理系で卒業したのか?と問われてしまいそうであるが、それでもやはり反射的には疑問に思ってしまうことを自白したい。

このいわゆる標本調査、標本がいくらぐらいだとどれくらいの信頼性があるのだろうか。また、誤差をある程度に抑えるには、どれくらいの標本数が必要なのだろうか。


これを考えるのにも、区間推定の式が使える。母比率の推定区間は[標本比率±t*√(標本比率*(1−標本比率)÷標本数)]で、このtは標準正規分布に従う、と教えられている。数式で書くと、
I \in p\pm t\sqrt{\frac{p(1-p)}{n}} …(1)
(Iは推定区間の下限と上限、pは標本比率、nは標本数)である。信頼度を90%とするとt=1.645であり、n=200で、ある番組を見てたのが20人だった場合、p=0.1ということなので、母比率の推定区間は0.1±1.645*√(0.1*0.9/200) ≒ 0.1±0.035、すなわち6.5%〜13.5%となる。結構大雑把だ。信頼度を95%とするとt=1.96なので、5.8%〜14.2%ともっと幅が広くなる。
この式の±以降の部分が推定区間の幅なので、標本比率を固定すると、誤差をどれくらいにするためにはどれくらいの標本数が必要かを求めることができる。最大誤差をeとすると、
e=t¥sqrt{¥frac{p(1-p)}{n}}
なので、これをnについて解くと、
n=¥left(¥frac{t}{e}¥right)^2p(1-p)
である。例えば、視聴率10%の近辺で、信頼度を90%で視聴率の誤差を1%以内にするためには、n=(1.645/0.01)2*0.1*0.9=2435と求まるので、2400人以上のモニターが必要ということになる。誤差が2%で約600人、3%で約270人である。視聴率が20%近辺だと、さらにハードルが上がり、約4300人で誤差1%、約1100人で誤差2%、約500人で誤差3%となる。視聴率が50%に近づくほど、必要なモニターが増えることがわかる。


ところで、最初の母比率の推定区間の式(1)は、どうしてそうなるのだろうか。

以前のエントリーで、正規分布に従う値の母平均の推定区間が[標本平均±t*√(標本分散÷標本数)]で与えられる、と書いた。数式で書くと、
I \in \bar{X}\pm t\sqrt{\frac{s^2}{n}}
(Iは推定区間の下限と上限、Xは標本、s2はXの不偏分散、nは標本数)という感じであるが、この平方根部分の中身は要するに標本平均の分散ということであるので、ちょっと乱暴であるが、母平均に限らず、標本から求められる推定値からの推定区間が[推定値±t*√(推定値の分散)]で与えられる、と理解していいと思う。
なお、tはt分布に従うが、自由度が大きい場合はt分布が標準正規分布に近似できることになっている。

この推定値が比率の場合、その比率の分散が何になるかが問題だが、これは二項分布の定理から求められる。発生確率がpの場合、n回の試行で発生する回数Xの期待値はE(X)=np、分散はV(X)=np(1-p)だと二項分布の定理で確定しているので、n個の標本中の確率pで存在する何かの個数Xの期待値もE(X)=npであり、分散もV(X)=np(1-p)であることから、存在確率X/nの期待値はE(X/n)=p、分散はV(X/n)=p(1-p)/nだとわかる。これを使って、[推定値±t*√(推定値の分散)]=E(X/n)±t√V(X/n)=(1)となる訳だ。

細かい所はかなり怪しいが、何か試験を受ける訳でも無し、この件について私の一生の中でこれ以上の理解を必要とすることも理解したくなることも多分無いだろう。一通りの計算方法さえ解れば満足だし、飲み屋で素人相手に知ったかぶりができれば十分なのである。
…とか書いてると、罰が当たってどこかの工場の品質管理に回されて6σとかが出てきたりするんだろうか。せめてソフトウェアの品管で勘弁してほしいものだ。

ついでに、今回用いたMaximaへの入力と出力も記録する。

(%i1) load(descriptive);load(distrib); /* おまじない */
(%i21) quantile_normal(0.95,0,1); /* 標準正規分布の累積密度が95%(中心から両側90%)になるz */
(%o21) 1.644853626951472
(%i22) quantile_normal(0.975,0,1); /* 標準正規分布の累積密度が97.5%(中心から両側95%)になるz */
(%o22) 1.959963984540054
(%i26) 1.645*sqrt(0.1*0.9/200); /* 視聴率10%の誤差(信頼度90%) */
(%o26) .03489571965155612
(%i27) 1.96*sqrt(0.1*0.9/200); /* 視聴率10%の誤差(信頼度95%) */
(%o27) .041577878733769
(%i32) (1.645/0.01)^2*0.1*0.9; /* 視聴率10%、誤差1%の標本数 */
(%o32) 2435.4225
(%i33) (1.645/0.02)^2*0.1*0.9; /* 誤差2% */
(%o33) 608.855625
(%i34) (1.645/0.03)^2*0.1*0.9; /* 誤差3% */
(%o34) 270.6025
(%i40) (1.645/0.01)^2*0.2*0.8; /* 視聴率20%、誤差1%の標本数 */
(%o40) 4329.64
(%i41) (1.645/0.02)^2*0.2*0.8; /* 誤差2% */
(%o41) 1082.41
(%i42) (1.645/0.03)^2*0.2*0.8; /* 誤差3% */
(%o42) 481.0711111111112

トラックバック

このエントリーのトラックバックURL:
http://ynomura.dip.jp/cgi-bin/mt/mt-tb.cgi/105

コメント投稿フォーム

※投稿されたコメントはオーナーが承認するまで表示されません。


Powered by Movable Type 3.35