単純無作為抽出の活用方法
物事を深く調べたいとき、元になる情報の収集が行われます。ある学校に通う生徒たちの平均身長が知りたいのであれば、生徒全員の身長を測り、平均を割り出せば正確な値がわかるでしょう。しかし、全人類の身長を調べるとなると、この方法は現実的ではありません。このような問題を解決するため、効率的な調査方法が多く生み出されました。その1つが単純無作為抽出です。この調査方法はどのようなものか、以下で解説します。
統計を扱うときには、データの元となる基本統計量と呼ばれる値が必要です。この基本統計量を調べる際には「全数調査」と「標本調査」という2つの方法があります。単純無作為抽出とは、基本統計量を測る際に使われる「標本調査」の1つで、最も基礎的といえる標本抽出法です。
一般的によく用いられる分析方法を紹介します。時系列分析は単純無作為抽出に最もよく使われている分析方法の1つです。入手した標本を時系列で並べ、その推移によってデータを分析します。単純無作為抽出で得た抽出標本の差異を調べたいのであれば、散布図を描き回帰分析する方法がよく取られます。回帰分析とは、結果と数量にどのような数値が関係したのかを調べる分析方法です。また、単純無作為抽出が複数の母集団に用いられた場合、その抽出結果を比較する場合は、分散分析が用いられる場合が多いです。この方法では、複数の標本の平均を比較して違いを観測し分析します。
現実に無作為で標本を選択するのは非常に難しいことです。そのため単純無作為抽出では、標本抽出が無作為に近くなるよう準備する必要があります。それには、標本の抽出単位と標本のサイズを、あらかじめ決定しなければなりません。ここでは標本サイズを「n」として解説します。まず、母集団に設定した抽出単位ごとに1からNまでの数を割り当てます。次に、1からNの間にある数で、標本を選び出す際に使う乱数を作りましょう。ここまで準備ができたなら、標本の抽出へ移行します。
母集団の中に、設定した乱数に当てはまる抽出単位が存在し、その抽出単位がまだ選ばれていない場合、それを標本として取り上げます。すでに選ばれている乱数の場合には、標本として抽出しないので注意しましょう。あとは、標本サイズに設定した「n」の値になるまで、乱数の設定と標本の抽出を繰り返します。
単純無作為抽出では、標本調査の結果を通して母集団の平均値や分布比率などが把握できます。また、分析方法によっても、単純無作為抽出でわかる事柄は異なります。時系列分析では、数値の変化を通して調査データの傾向や推移の予測が可能です。前述の分析方法を元に例をあげるなら、回帰分析ではサービスと売上の関係性や将来予測ができます。分散分析では、販売エリアごとの売上成績の違いが掴めます。
単純無作為抽出では3つのメリットが上げられます。1つ目のメリットは、作為性が低い抽出方法であることです。2つ目は、標本を調べれば母集団の全体像が理解できることです。単純無作為抽出は標本のランダム性が高いため、母集団を反映しやすい調査方法といえます。近ごろでは、コンピューターで乱数を作ることでよりランダム性が高まっています。3つ目は理屈がシンプルなことです。シンプルな標本調査方法であるため、得られた標本の差異や誤差を評価しやすいです。
単純無作為抽出は、母集団の全体像を把握しやすい反面、不十分な標本量では母集団の全体像が曖昧になり標準誤差が大きくなります。しかし、母集団のサイズが大きくなるほど、必要な標本量も増えるため、調査のコストが高くなります。また、単純無作為抽出では標本を抽出する前に、抽出単位に分けたリストを母集団に作成しなければなりません。そのため、標本の抽出までの準備に、手間がかかります。このコストと手間によって、母集団が大きすぎる場合には、単純無作為抽出を実施できない可能性があります。
標本誤差とは、標本調査において得られた標本平均と母集団の平均を比べて、どの程度の差異があるかを示す値です。標本誤差が小さいほど、標本は母集団を正確に表しているといえます。単純無作為抽出では、標準誤差が過大にならない程度に、標本サイズを決める必要があります。また、母集団のサイズが大きすぎる場合や、抽出したい情報が複雑な場合には、より適した抽出方法を検討してみることも大切です。多段抽出や層化抽出を試みるのもよいでしょう。
乱数によって抽出するとはいえ、単純無作為抽出では連続する標本単位が選択される可能性があります。例えば、商品やサービスの購買意欲を調査した場合に、同世帯に住む人から意見を聞いたのでは、結果に偏りが出やすくなるのは当然です。なぜなら同世帯に住む人は、近い意見を持ちやすいからです。単純無作為抽出をする場合には偏りを避けるため、乱数が連続した数にならないように注意しましょう。なお、母集団が大きくなるほどにこの偏りは現れにくくなります。
全数調査とは、対象となる集団を全て抽出して調べる調査方法です。この調査方法では標準誤差が生じません。調査対象を正確に把握できるので、信頼できる情報が得られます。例えば、国で世帯人数を調べたいと考えたときに、その国の全世帯を調べる調査方法が全数調査です。全数調査は対象となる集団の情報を多角的に集めることに優れています。上記の例でなら、世帯人数以外にも世帯主や住所といった情報を同時に集めることが可能です。日本では国勢調査において全数調査が活用されています。この調査によって判明した情報を元に、議員定数配分、地方交付税の交付額の配分、都市計画の策定といった行政活動が行われています。
なお、全数調査の結果が用いられるのは、分析対象としてだけではありません。さまざまな統計の基礎となる数値として用いられています。例えば、経済センサスでの調査方法は標本抽出です。しかし、その標本抽出に使う母集団を把握するためのリストは、全数調査で得られた数値が活用されています。全数調査は統計調査の中心的役割を担う調査方法といえるでしょう。
単純無作為抽出とは標本調査の基本的な方法です。この調査方法を使えば、母集団の全体像を掴めるだけでなく、分析方法によってさまざまな推論が立てられます。無作為性が高く理屈がシンプルなため、データの分析や誤差の評価がしやすいです。単純無作為抽出は使い勝手のよい標本調査方法ですが、標本誤差や標本の偏りを生み出しては正しい分析が導きだせません。そのため、標本数の設定や乱数の作り方には注意しましょう。