― アンケート調査の回収データ数は多ければ多い方が良い? -

 スポーツ庁が毎年実施する「スポーツの実施等に関する世論調査」のアンケート回収数が令和4(2022)年調査は4万件になりました。今後は4万人調査として継続されるものと予想されますが、サンプル数4万件はどれだけの精度のアンケート調査なのか。また2万件から4万件へと2倍に増えたことでアンケート結果の精度はどう変わるのか、信頼度はどれだけ増すのかについて、整理しました。統計調査にたけた人もいらっしゃるとは思いますが、誰も解説をしてくれません。教えてもくれない。発表された結果だけをうのみにして、増えた、減ったと一喜一憂(されたない?)するだけでは、なんとも自身が情けないとも思っていたので、手元にある何冊かの統計の本や総務省統計局のオンラインセミナーのオフィシャル・スタディノートなどを元に、学び直しを含め、アンケート調査のサンプル数と制度についてまとめました。以前、サンプルの「数」については紹介しましたが、今回は、サンプル数が2倍になれば精度はどれくらい高くなるのだろか? 2倍になるのか?と素朴に考えた結果の原稿です。統計に詳しい人は、何を今さら!と思われるかもしれませんが、そういう方は本稿を無視してください。そしてお願いがあります、無理やりお付き合い頂き、間違いを見つけられましたらお知らせください。間違いはいけませんから、さっさと訂正をします。

これだけ。アンケート回収数の肝

 統計のやり方、手法については本にするほどの知識を持っていませんから、この部分は専門書に譲ります。お薦めは「文系でもわかるビジネス統計入門」(東洋経済新報社)です。基本のキが分かると思います。早稲田大学のオープンカレッジの講座内容だそうです。私が大学で学んだ時の統計学の本は小難しかった記憶しかありませんが、他にも分かりやすく書かれた本が何冊もあります。

 といっても基本の部分は押さえておきたいと思います。統計には記述統計と推測統計があります。

 記述統計(Descriptive Statistics)は、データを収集・整理し、要約し、分析する手法です。主に平均値、中央値、標準偏差、分散、最大値・最小値、ヒストグラム、散布図などの統計量やグラフを使って、データの性質や特徴を説明します。具体的には、データの中央傾向、ばらつき、分布形状、外れ値の有無、相関関係などを見ることができます。記述統計は、データを簡単に理解するために使われます。

 推計統計(Inferential Statistics)は、サンプルから母集団の特性を推定する手法です。母集団全体を調査することは困難なため、母集団から一部のデータ(サンプル)を取り出して、それを元に母集団全体の特性を推定します。具体的には、推測に用いる統計量や検定手法などを用いて、母集団の平均値や分散、比率などを推定することができます。推計統計は、実験や調査などで得られたサンプルを元に、その背後にある母集団の性質や特徴を推測するために使われます。

 まず記述統計についてもう少し説明します。

 よく出る例ですが、あるクラスのテスト成績について調べたいとします。30人の生徒の点数は以下のとおりです。

 80,60,70,90,75,85,92,68,74,88,81,79,72,87,65,83,76,70,78,80,85,62,94,77,82,69,86,73,80,84

 これらのデータを要約するために、一般的に使われる以下の統計量を計算してみます。

平均値: データの合計をデータ数で割った値です。ここでは、平均点は78.2点になります。よく使う算術平均というやつです。

中央値: データを小さい(大きい)順に並べたときに、中央に位置する値のことです。ここでの中央値は80点になります。

標準偏差: データの散らばり具合を表す指標で、標準偏差は8.5点になります。

最大値・最小値: データの中で最も大きい値と最も小さい値ですから、最大値は94点、最小値は60点です。

ヒストグラム: データを区間に分けて、それぞれの区間に含まれるデータの数を棒グラフで表したもので、以下のようなヒストグラムが得られます。このヒストグラムからは、点数が70点前後の生徒が比較的多く、成績が良い(90点以上)生徒は少ないことが分かります。

 これらの統計量やグラフを用いて、ゴルフ関連のデータの性質や特徴が説明されるわけです。

 この記述統計は、例えば会員の年齢やハンディキャップ、来場者の利用回数など入手できる(可能な)データを用いた分析に適した方法です。ゴルフ場のコンピュータのキーボードをポンポンとたたけば、瞬時に分析をしてくれているはずです。

 ところが、日本のゴルフ人口を調べよう、ゴルファーの平均年齢は、男女別の人数やスポーツ庁のアンケート調査のように所得や家族構成といった情報まで含めて調査をしようとなると、1億2000万人の国民全員に聞くわけにはいきません。ゴルフに関する全国規模の大規模な調査としては、国勢調査に合わせて社会生活基本調査が10万人規模で実施され、その調査結果からゴルフ人口などの基礎データを入手できるわけです。この調査手法が推測統計と呼ばれるものです。

 そして私たちは、こうした社会生活基本調査やスポーツ庁の調査のデータから、全国のゴルファーの生態を推計しているわけです。ここでよく聞かれる言葉が、全数調査でないから真偽が・・・という言葉です。そもそも誰も絶対にそうですとは言っていません。推計統計は、確率的にこのくらいの人口と考えられますよという説明です。ほぼほぼ確実な数字としてこのくらいのゴルフ人口は考えられるという理解を前提に、日本のゴルフ人口を考えているわけです。

 この推計統計について簡単に説明すると、こうなります。実はChatGPTに説明をお願いしました。AIの使い方の一例ですね。

 (ChatGPT)以下は、推測統計を用いた例です。

 例えば、ある製品の品質について調査したいとします。しかし、製品をすべて調べることは困難なため、製品からランダムに10個を取り出して調査することにしました。

 10個の製品の重量(g)が以下のようになったとします。

 50,52,49,51,48,53,47,50,51,52

 この10個の製品から、製品全体の平均重量を推定することができます。ここで、標本平均として、10個のデータの平均を求めます。

 標本平均=(50+52+49+51+48+53+47+50+51+52)÷10=50.3

 この標本平均は、ランダムに選ばれた10個の製品の平均重量を表していますが、製品全体の平均重量とは必ずしも一致しない可能性があります。

 このように、標本から得られた情報をもとに、母集団全体の特性を推定することが推測統計の目的です。具体的には、以下のような手法を用いて、母集団の平均値や分散、比率などを推定します。

 区間推定: 母集団の平均値などがどの範囲にあるかを推定する手法。例えば、95%信頼区間を求めることで、真の平均値が95%の確率で信頼区間に含まれると推定することができます。

仮説検定: ある仮説が正しいかどうかを検証する手法。例えば、「この製品の平均重量は50グラムと等しい」という仮説に対して、標本から得られたデータを用いて、仮説が正しいかどうかを判断することができます。

 このように推測統計は、サンプルから得られた情報をもとに、母集団の特性を推定するために用いられます。

ゴルフ人口の信頼性はこう考える

 ゴルフ人口は、推計統計の手法でサンプルから全体を推計するわけです。推計された数(ゴルフ人口)は正しいと考えていいのか? これが我々の問題(疑問)であるわけですが、この精度を考える時にポイントとなるのは真の平均値が95%の確率で推計された信頼区間(95%信頼区間)となります。ゴルファーの人口規模を決めているのは参加率(ゴルフ実施者率)ですから、我々が知りたいのは、アンケートのデータが母集団の平均値と見てよいかどうかで、それは95%の信頼区間にあるのかどうかです。理論的な話は専門書に譲るとして、ここでは精度についてだけまとめます。

 日本に住んでいる人の何%がゴルフをしているのか? スポーツ庁の「スポーツの実施等に関する世論調査」(令和4年)では、ゴルフコースでの実施率は6.4%でした。この6.4%が信頼できる確率はどれくらいで、信用してよい範囲にあるのか?を見てゆきたいと思います。信頼できる数値であれば、調査対象人口にこの6.4%を掛けるだけです。

 スポーツ庁のゴルフコースの参加率を例に標準誤差と95%信頼区間の精度を表にしました。

 標準誤差は推定精度が68%だと思ってください。68%の精度(確率)では心もとないですよね。で、95%信頼区間の数値は、95%の確率でこの誤差の範囲に収まっているという数値です。スポーツ庁の6.4%というゴルフコース参加率は、6.4±0.24%の幅の中に95%の確率で存在しますよというわけです。つまり、6.16%から6.64%の幅の中にあるということです。ゴルフ人口の全数調査は現実的な選択ではありませんから、アンケート調査で把握するとして、この確率なら信頼してよいでしょうということです。仕方ないですよね。これが一番納得できる方法なのですから。上表の95%信頼区間をグラフにすると下のようになります。サンプル数が1万を超えたあたりから精度はあまり変わらなくなります。普通のアンケートですと、±3%の誤差で1,056のサンプル数が必要な数です。

 ところで、社会生活基本調査のサンプル数は10万件を超えます。10万件で誤差を計算すると、4万サンプルの倍近く精度が上がります。といっても0.1%くらいですが。

 さて、サンプル数が幾つであればよいのかという点についてですが、スポーツ庁のサンプル数で考えてみましょう。令和2年まではサンプル数は2万件でした。3年の4万件と比較するとどれだけ精度が違うのか。

 95%信頼区間の誤差の計算式は 1.96×√(0.064×(1-0.064)÷40,000)です。式の意味は専門書をご覧ください。令和4(2022)年は95%信頼区間の誤差範囲は±0.24%になります。仮にサンプル数が2万件であったとすると誤差は±0.34%になります。±0.1%の精度向上ということになるのですが、我々が知りたいのは、調査回収数が2倍になったことで、ゴルフのサンプリングされた件数はゴルフコースが2,549件、ゴルフ練習場は2,158件と、前年の1,233と1,118の約2倍(2.07倍、1.93倍)になっていることで、許容誤差が小さく設定できたことになります。一般的には、母集団を700万人規模とすると、2401件のサンプル数で許容誤差は2%に、1067件では3%といわれています。スポーツ庁のデータはゴルファーの分析精度を1%高くしてくれているようです。

 過去5年間の各調査のゴルフ参加率の標準誤差と95%信頼区間の誤差範囲をまとめました。これくらい精度ですから、スポーツ庁のアンケート調査でゴルフ人口を把握できいると考えてよいのだと思います。

By 喜田 任紀

月刊ゴルフマネジメント前編集長、一般社団法人関東ゴルフ連盟グリーン委員会参与

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください