出口調査は、どの程度、結果を予測できるのか?
昨日、出口調査のことを書きましたが、昨日の参院選の選挙結果も出ましたので、もう少し詳しく掘り下げたいと思います。
昨日、私が出口調査に協力したのは、朝日新聞の調査でした。
昨晩のテレビ朝日選挙番組を見ていたところ、自民の予想38議席に対して、結果は37議席でした。恐らく出口調査の結果に基づいていると思われますが、かなり正確な予測であると思います。
本日の朝刊を見たところ、朝日新聞の出口調査は全国3,630箇所で実施し、有効回答185,000人だったそうです。1拠点当り平均51名ということですね。
ちなみに、日本経済新聞も出口調査を行っており、こちらは調査対象74,000人だったそうです。
さて、この出口調査でどの程度投票結果を正確に予測できるのでしょうか?
選挙結果予測を考察するには、選挙区毎に候補者の得票率を評価することが必要になります。
幸い、朝日新聞の東京版では、東京選挙区の出口調査のサンプル数と各候補者の得票数を掲載していたので、計算してみました。
まず、東京選挙区における朝日新聞の出口調査は、180箇所で行われ、7,987名の有効回答を得ています。
一方で、開票率99%の時点で、得票率は以下の通りでした。
当選:大河原氏 18.47%、山口氏 13.48%、鈴木氏 13.26%、丸川氏 11.70%、川田氏 11.60%、
落選:保坂氏 11.04%、田村氏 9.40%......
さて、7,987名のサンプル数をもって、各候補の得票数はどの程度の信頼度で予測できるのでしょうか?
ここで、得票率11.70%の丸川氏と、同13.26%の鈴木氏を例にとって、どちらの得票率が上と予測できるか、考えてみましょう。
実際の出口調査の生データは私達は知り得ませんが、どの程度の信頼度で予測できるかを検証することが目的ですので、ここでは出口調査の結果、丸川氏の得票率が11.70%、鈴木氏の得票率が13.26%と予測されたと仮定し、この数字がどの程度の信頼度を持つかを考えてみます。
まず、両者の得票率の差の期待値は
0.1326-0.1170 = 0.0156 (1.56%)
という予想になります。分散は
((0.1326 x (1 - 0.1326)) / 7,987) + ((0.1170 x (1 - 0.1170)) / 7,987) = 0.00002732
標準誤差はその平方根をとって
0.00523 (0.523%)
と予想されます。
この場合、信頼度95.4%の信頼区間は、
0.0156 - 2 x 0.00523 から 0.0156 + 2 x 0.00523
つまり、
0 < 0.00512 から 0.02603
ということで、鈴木氏の得票率は丸川氏の得票率よりも95.4%の信頼度をもって高いと予測できることになります。
鈴木氏と丸川氏は得票率に1.56%の開きがありましたが、より僅差の場合はどうでしょうか?
得票率11.60%の川田氏と、11.04%の保坂氏を例に考えてみましょう。わずか0.54%という僅差で明暗を分けた結果となりました。
上記と同様の計算を行うと、信頼度95.4%の信頼区間は、
0.0056 - 2 x 0.00501 から 0.0056 + 2 x 0.00501
つまり、
0 > -0.00444 から 0.01561
になってしまい、川田氏の得票率は保坂氏の得票率よりも95.4%の信頼度をもって高いと予測できない、ということになってしまいます。
つまり、0.56%という僅差の場合は、このサンプル数では不十分ということですね。
計算は省略しますが、信頼度95.4%の信頼度をもってこのような接戦の結果を予測するためには、26,000名程度のサンプル数が必要ということになります。
つまり、3倍以上のサンプル数が必要になります。恐らく出口調査のコストはサンプル数に比例すると思われますので、コストも3倍以上かかるということになります。
ということで、現在の出口調査のサンプル数では、ある程度の得票差は予測可能である一方で、僅差の場合の予測はちょっと難しい、ということのようです。
ところで、東京都のサンプル数合計が約8,000件、拠点当りのサンプル数が約51件というのは、思ったよりも小さい数字ですね。
この程度であれば、昨日書いたように、各拠点の出口調査担当の方は自分で喫茶店で入力してメールで送信できる範囲のデータ量ですし、東京都レベルの調査であればExcelで十分に分析可能ということになりますね。(さすがに全国185,000人のデータは無理ですが)
実際のところ、どのような作業なのか、興味があるところです。
PS. もし計算間違い等がありましたら、ご指摘願えれば幸いです。