§ 数の多さだけでは解決できない問題

《 データサイエンス基礎 》 ◆大数の法則

← 前へ

§ 数の多さだけでは解決できない問題

 もし、回答率が同じであるなら、日本全国から単純無作為で300サンプルを抽出した調査よりも、単純無作為で5,000サンプルを抽出した調査のほうが、アンケート調査の結果の信頼性は増す。しかし、回答率が異なっていた場合はどうなるか。

 仮に、調査Aがサンプルサイズ300・回答率が99%で、調査Bがサンプルサイズ5,000・回答率15%だった場合を考えてみる。調査Aは297人の回答を得たことになり、調査Bは750人の回答を得たことになる。得られたデータの数でいえば、調査Bが多い。しかし、前述のように、回答する・しないが偶然ではない何らかの理由に左右されていたのだとしたら、どうなるか。大多数の人が回答しなかった調査Bというのは、きっと暇な人ばかりが回答していたにちがいないと勘繰りたくなる。仮に、暇な人ばかりが回答していたとして、数千人に「あなたは余暇の時間に何をしますか」と聞いても、その回答が全国民の意識を反映しているかと言われれば疑問であろう。それよりは、数百人規模であっても回答率が99%と高い調査のほうが、全国民の意識を反映していると考えられよう。

 大数の法則にしたがえば、ほかの条件が同じであればサンプルサイズが大きいほうが信頼性は高まると考えられるのだが、このように、数の多さだけでは解決できない問題があることも念頭に置くべきであろう。

PAGE TOP