ギャップ修正

今回は、非常にテクニカルな問題を取り上げる。

 いま、標本調査から作られた統計があるとしよう。この統計は毎月作られているとする。平均値を公表しているとする。理想的、あるいは教科書的な方法は、毎月母集団の名簿を作り、そこから標本を取り出すことである。母集団が毎月変わっている可能性があるからである。

 しかし、実際には毎月母集団名簿を作ることは現実的ではないとしよう。また、毎月標本として選び出された対象を交換し、回答するようお願いをし、回答の仕方を説明して、回答をしてもらうというのも無理であるとする。

 この場合、ある一時点で母集団名簿を作成し、そこから標本を抽出し、ある程度の期間回答を続けてもらうのが現実的である。それでも同じ標本を利用する期間が長すぎるのには問題がある。母集団の変化が無視できないからである。36か月ごとに名簿を更新し、標本を抽出している。そして古い標本には37か月目にも回答をしてもらうことにしているとしよう。

 すると37か月目だけは古い標本から得られた平均値と新しい標本から得られた平均値が得られることに案る。この差がギャップと呼ばれている。

 さて、このギャップは母集団の平均値が変わったことによって生じたのかもしれないし、二つの標本で標本の平均値と母集団の平均値の間の誤差が異なるために生じたのかもしれない。37か月目の時点では、得られたデータからはどちらとも判別できないのである。

ここで、古い標本を用いた最初の36か月間、標本平均値は96.4で変化がなかったとしよう。13か月目から36か月目までの24か月分の対前年同月差はゼロと計算される。古い標本から37か月目に得られた標本平均も96.4であったとする。そして新しい標本から得られた37か月目から72か月目までの標本平均値はすべて100であったとする。このままデータを修正せずに利用すれば、37か月目から48か月目までは、対前年でみると3.6の増加、それ以後の増加はゼロということになる。

 72か月分のデータが語っているのは、「おそらく母集団の平均値は安定している。」ということである。37か月目に、一回だけの変化があったとするのは、不自然だろう。この時に何か母集団の変化をもたらすようなことが起こっていれば別である。たとえば、これが消費者物価指数で37か月目に消費税率が引き上げられたというような。そのような特殊な事情がなければ、このギャップのほとんどは標本誤差の差によるものと判断させるだろう。私ならそう判断する。この場合、37か月目の二つの標本の平均値の平均値、96.4+100÷2=98.2をとってこれが72か月間続いたと統計を修正するだろう。60か月間対前年増加はゼロになる。

 しかし、このような修正は新しいサンプルを36か月間集めた後でしかできない。37か月目にも統計は発表しなければならない。3年ほどお待ちくださいと言えないのである。かと言って37か月目に突然変化したというギャップをそのままにして、統計を作るのにも無理がある。そこで、この平均値の動きを滑らかにするためにテクニカルに修正を加えることになる。

 37か月目は新しい標本から得られた100を用いることを前提にする。新しい母集団名簿に基づく調査結果だからである。もし、過去36か月間に特別な変化をもたらすような事情のある月がなかったとしたら、3.6のギャップを36か月間に均等に割り振り、1か月目は96.4,2か月目は96.5、3か月目は96.6とし、以下同じようにして36か月目は99.9とするのが素朴なやり方である。13か月目から37か月目まで、すべて対前年同月の増加は1.2になる。もちろん、これは一つの割りきった想定であってその時々の実態がこのように変化したという根拠、データに基づくものではない。

 仮に3.6の変化が1か月目から12か月目までに起こっていたという可能性は排除できない。この場合、25か月目から36か月目までの対前年差はゼロが正しいことになる。

 このような方法で修正をしたとき、修正された統計、そこから算出される対前年差が母集団の変化をよりよくとらえたといえるかどうか、疑問である。3.6のギャップが、母集団の平均値が変わったことを示しているのか、標本の抽出に伴って変化しただけなのかは、依然として分からないし、24か月目から36か月目に新しい母集団名簿に基づく調査をした訳でもないのだから。

 

人気blogランキングでは「社会科学」の19位でした。今日も↓クリックをお願いします。

人気blogランキング