クイックノート

ちょっとした発見・アイデアから知識の発掘を

スタインのパラドックス

誤差を最小にするような推定方法よりも、
さらに誤差を小さくする推定方法がある。

そんな、不思議な話が出てくるのがスタインのパラドックスです。

ポイントは、いくつかありますが、
「誤差」という言葉が何を指しているかは、
重要なポイントになります。

実は、1文目の誤差と2文目の誤差は意味が違っています。

なんだ、そんなことか、
誤差の測り方が違うなら、
そういうこともあるだろう
と思われた方、
もう少しだけ待ってください。

誤差の意味は違いますが、
誤差関数の形は同じで、どちらも二乗誤差です。

違っているのは、データに対する誤差なのか、
真値に対する誤差なのかという点です。

よく推定で用いられる最小二乗法では、
データからの二乗誤差(の平均)を最小化するように、
平均値の推定を行いますが、
この方法で得られる平均値よりも、
より真の平均値に二乗誤差の意味で近い平均値を推定する方法があるのです。

これがスタインのパラドックスと呼ばれるものです。
それでは、詳しく見ていきましょう。

問題設定

データを1個とすれば、最小二乗法の推定値はデータの値そのままとなるので、
このような、かなり単純な問題を使って考えていきましょう。
そのかわり、推定する値の次元は多次元とします。

整理すると、次のような問題を考えることになります。

未知の平均値 \mu_1,\cdots,\mu_nを持つ
n個の正規分布から、独立に1個づつデータ
x_i \sim N(\mu_i,1)
を得たとする。
このとき、未知の平均値\mu_1,\cdots,\mu_n
の推定を期待二乗誤差
E[\mu - \hat{\mu}] = \sum_i E[(\mu_i - \hat{\mu}_i)^2 ] が小さくなるように推定値\hat{\mu}_iを求めたい

最小二乗法による推定

データは1個だけなので、データと二乗誤差を最小とするような推定値は、
\hat{\mu}_i = x_i
つまり、データがそのまま最小二乗推定値となります。

この推定値の下で、期待二乗誤差は
\sum_i E[(\mu_i - x_i)^2] = \sum_i \sigma^2 = n
となります。 途中の式変形では、分散の定義を利用しました。

より誤差の小さい推定

最小二乗法だと誤差はnであることが分かりました。
この推定値を改良してより誤差を減らせないでしょうか。

推定値の改良

ひとまず、次のような推定値を考えてみます。
\hat{\mu_i} = x_i - \frac{\alpha}{|x|^2}x_i
ここで、 |x|^2 はデータの二乗和で、
\alphaは任意の値としておきます。
\alphaが0なら、もとの最小二乗法による推定値に一致するので、
\alphaを動かした時に0以外で、
期待二乗誤差を最小となるなら意味のある推定値の改良となります。

期待二乗誤差

上の推定値の下で、期待二乗誤差を計算すると、
 E[(\mu-\hat{\mu})^2]  = E[ (x-\mu)^2 - \frac{2\alpha}{|x|^2}(x-\mu)x + \frac{\alpha^2}{|x|^4}|x|^2] \\
= n\sigma^2 - 2\alpha \sum_i E[\frac{(x_i-\mu_i)x_i}{|x|^2}] + \alpha^2E[\frac{1}{|x|^2}]
と3つの項に分けられます。

期待二乗誤差の最小値

二乗誤差の最小値を調べるために、
もう少し変形を進めます。

第二項の期待値計算は、 h_i(x)= \frac{x_i}{|x|^2}とおくと、
E[(x_i-\mu_i)h_i(x)] と書けます。

これを積分の形で書き下すと、
 E[x_i-\mu_i)h_i(x)] = \int h(x)(x_i -\mu_i)P(x_i)dx_i
となります。
ただし、P(x)正規分布の確率分布関数を表します。

正規分布は指数関数の形式をとっており、微分すると、
 \frac{d}{dx} P(x) = - \frac{x_i - \mu_i}{\sigma} P(x)
となり、元の関数が表れます。

これを利用すると、
 E[x_i-\mu_i)h_i(x)]  = -\sigma \int h(x_i) \frac{dP}{dx}(x_i) dx_i \\
 = -\sigma [ h(x_i)P(x_i) ]_{-\infty}^{\infty} + \sigma \int \frac{dh}{dx}(x_i) P(x_i)dx_i \\
 = \sigma E [ \frac{dh}{dx}(x_i) ]
となります。
途中で、部分積分、及び、
h(x)及びP(x)無限遠が0であることを利用しました。

つまり、第二項の期待値の計算はh(x)微分の期待値として、 計算ができ、各項を整理すると、
 E[(\mu-\hat{\mu})^2]  = n - 2\alpha(n-2) E[\frac{1}{|x|^2} ]+ \alpha^2 E[ \frac{1}{|x|^2} ]

これを、\alpha についての二次関数と見れば、
 n \ge 3 の時、\alpha = n-2で最小となります。

つまり、パラメータの数が3個以上の場合は、
改良した推定値が最小二乗法で求めた推定値よりも、
小さい期待二乗誤差を与えることが分かります。

プライバシーポリシー