ガチャの確率が正しいかどうかなど、
ある仮設をデータを使って検定する仮説検定ですが、
ベイズ的な仮説検定と、伝統的な仮説検定の間には、
決定的な違いがあります。

この違いが顕わになる
リンドレーのパラドックスと呼ばれる問題があります。

パラドックスと呼ばれているものの、
実体は、ベイズ的な仮説検定と伝統的な仮説検定のアプローチの違いが、
結果に大きく表れているというだけですが、
二つの仮説検定の違いを理解するために、
有用な問題だと考えられます。

この記事では、リンドレーのパラドックスについてまとめていきます。

仮説検定とは
伝統的な仮説検定
- 仮説に基づく確率
- 有意水準
ベイズ流の仮説検定
- 事後確率
- ベイズファクター
リンドレーのパラドックス

仮説検定とは

本題に入る前に、仮説検定について復習しておきましょう。

仮説検定とは、簡単に言ってしまうと、
統計的に得られたデータから、
ある仮説についての正否を判断することです。

例えば、確率1% でレアなアイテムが手に入るガチャがあった時、
確率1%という主張は本当に正しいか否かを、
実際にガチャを引いて、データを集めることで判断する
ということが考えられます。

基本的には、集めたデータと仮説がどれだけ離れているか、あるいは近いか
が、仮説検定の結論を導くために重要となってきます。

また、どの程度離れていれば、あるいは、近ければ、仮説を否定、あるいは、受け入れるのか
も、仮説検定のポイントとなってきます。

これらの、データと仮説の離れ具合と、
仮説を受け入れる基準の決め方によって、
仮説検定の方法が変わります。

これが、ベイズ流の仮説検定と伝統的な仮説検定の違いを生むのです。

伝統的な仮説検定

それでは、伝統的な仮説検定は、
どのように、仮説とデータの離れ具合を測り、
どういった基準で仮説を受け入れるのでしょうか。

仮説に基づく確率

伝統的な仮説検定では、
ある仮説の立場に立って、
得られたデータがどれだけ珍しいか
で、その仮説とデータの離れ具合を計ります。

例えば、あるコインについて、
表が50%で出るという仮説を考えます。

この仮説が正しいという立場に立てば、
コイントスを何度も行った時、
表が出る回数は丁度半分くらいになる確率が最も高く、
回数が偏るにつれて、徐々に確率が下がってきます。

f:id:u874072e:20180403164358p:plain

もし、実際にコイントスを行った結果、
表が1回で、裏が9回というデータを得たとすると、
仮説が正しいという立場からすると、
かなり珍しいことが起こったと言えます。

実際、この確率は、1%程度しかありません。
この確率の小ささで仮説とデータの離れ具合を測ります。

有意水準

上のようにすることで、
データと仮説の離れ具合が
確率（めずらしさ）として計算できました。

では、どのくらいの確率であれば、
実際に珍しいと判断できるでしょうか。
10% なら珍しいでしょうか？
あるいは 1%でしょうか？

伝統的な仮説検定では、
この判断の基準の値を、
自分で決めておきます。
この値のことを有意水準と言います。

この有意水準としてよく使われるのは、
5% もしくは 1% という値です。

もし、仮説のもとで、データを得られる確率が
有意水準以下であれば、
データと仮説は大きく離れている、
つまり、仮説は間違っていると判断します。

ベイズ流の仮説検定

では、ベイズ流の仮説検定はどうでしょうか。

事後確率

ベイズ流の仮説検定では、
仮説とデータの離れ具合は、
事後確率で計算します。

つまり、データ $D$ を得た元での、
仮説 $H$ が真である確率 $P(H|D)$ を計算します。

この計算は、ベイズの定理を使って
$P(H|D) = \frac{P(H)P(D|H)}{Z}$
と計算できます。
ここで、 $Z$ は定数で、 $P(D|H)$ は伝統的な仮説検定でも出てくる
仮説 $H$ が正しいとしたときにデータ $D$ を得る確率です。また、 $P(H)$ は仮説 $H$ の事前確率で、
特別な理由がない限りは、全ての仮説で一定の定数とすることが多いです。

伝統的な仮説検定とは、形は異なっていますが、
データと仮説の間の関係を決めているのは、
$P(D|H)$ であるということに違いはありません。

そのため、ベイズ流の仮説検定でも、
データと仮説の離れ具合は、
仮説が正しいと思った時に、
そのデータを得る珍しさで測られます。

ベイズファクター

ベイズ流の仮説検定が伝統的な仮説検定と異なってくるのは、
どの仮説を受け入れて、どの仮説を否定するかの基準の決め方です。

伝統的な仮説検定では、有意水準という絶対的な基準を決めていましたが、
ベイズ流の検定では、他の仮説の事後確率と比較して、
どっちの仮説を取るべきかという相対的な判断を行います。

つまり、ある仮説 $H_1$ と別の仮説 $H_2$ について、
それぞれの事後確率 $P(H_1|D), P(H_2|D)$ を計算し、
どちらの仮説がデータとマッチしているかによって、
採用する仮説を決めます。

例えば、仮説 $H$ とその否定 $\lnot H$ の事後確率を比べると、
仮説 $H$ が正しいのか、否かの判断を行うことができます。

リンドレーのパラドックス

伝統的な仮説検定と、
ベイズ流の仮説検定の雰囲気がつかめたところで、
本題のリンドレーのパラドックスに移ります。

パラドックスの内容

リンドレーのパラドックスとは、
ある仮説 $H$ を仮説検定するために、データ $D$ を得た時に、

伝統的な仮説検定では $H$ は棄却される
ベイズ流の仮説検定では $H$ は採択される

というものです。

つまり、同じ仮説について、同じデータで検定しているのに、
伝統的な仮説検定とベイズ流の仮説検定で結果が逆になるという現象です。

パラドックスを起こす例

上のような現象は、次のような単純な状況で生じます。

あるコインについて、
表が出る確率が1/2であるという仮説を検定するために、
コインをN回降って、表がn回出たというデータを得た

非常に単純な例ですが、これでパラドックスが生じます。
実際、伝統的な仮説検定と、ベイズ流の仮説検定で
仮説検定の結果をみていきましょう。

伝統的な仮説検定の結果

伝統的な仮説検定では、仮説の立場に立って、
データが得られる確率を計算しました。

今の場合、仮説は「表が出る確率が1/2」なので、
$N$ が十分に大きければ、中心極限定理より、
表が出る回数は平均が $\frac{N}{2}$ で分散が $\frac{N}{4}$ の正規分布に従います。

そのため、実際に表が出た回数 $n$ と平均 $\frac{N}{2}$ の差が、
標準偏差 $\frac{\sqrt{N}}{2}$ よりも大きくなると、
確率は小さくなり、
データと仮説は大きく離れていると言えます。

もし、データの数 $N$ が非常に大きければ、
上の正規分布は分散が小さくなり、
表の回数が半分よりも少しずれるだけで、
確率が急激に小さくなります。

これは、データの数を増やすほど、
50%と49%のような微妙な違いも見分けれる
ようになることを意味していて、
直観にも合っています。

ベイズ流の仮説検定の結果

ベイズ流の仮説検定の場合、
仮説が二つ必要です。

今の場合、表が出る確率が1/2かどうかを調べたいので、

$H_1$ : 表が出る確率が1/2である
$H_2$ : 表が出る確率が1/2以外である

という二つの仮説を考えることが自然だと思われます。

それぞれの仮説がどれだけ正しいかは、
事前には分からないので、
事前確率 $P(H_1)=P(H_2)=\frac{1}{2}$ と
均等にしておくと良さそうです。

後は、事後確率を計算するために、
それぞれの仮説の元での確率を計算することになりますが、
$H_1$ については、伝統的な仮説検定と同様に、正規分布となります。 $H_2$ については、詳細な計算を省きますが、
確率1/2以外についての積分と、
ベータ関数の性質から一定値の $\frac{1}{N+1}$ となります。

$P(n|H_1)= \frac{\sqrt{2}}{\sqrt{ \pi N}} \exp{(-2\frac{(n-\frac{N}{2})^2}{N})}$
$P(n|H_2)= \frac{1}{N+1}$

データの数 $N$ が非常に大きい状況を考えると、
$P(n|H_1)$ の方は $\frac{1}{\sqrt{N}}$ に沿って小さくなるのに対して、
$P(n|H_2)$ の方は $\frac{1}{N}$ に沿って小さくなります。

そのため、 $P(n|H_2)$ の方がより急激に小さくなることが分かります。

つまり、データの数が多いと、
仮説 $H_1$ の方が仮説 $H_2$ よりも採用されやすくなります。

これは、データの数が増えるにつれて、
$H_1$ が棄却されやすくなる伝統的な仮説検定の傾向と、逆の傾向を示しています。

これがリンドレーのパラドックスです。

結果が違う原因

伝統的な仮説検定とベイズ流の仮説検定で、
結果が違う原因は何でしょうか。

まず、この二つの間では、
そもそも検定の仕方が大きく違っている部分があり、
伝統的な仮説検定では、
ある仮説の正しさを絶対的に評価しているのに対して、
ベイズ流の仮説検定では、
ある仮説の正しさを別の仮説と比べて相対的に評価します。

つまり、そもそも検定で見ようとしているものが違っているのです。

次に気になるのは、伝統的な仮説検定では、
データが増えるにつれて、微妙な違いを見分けられるようになるという、
直観的にも正しそうな結果が得られるのに対して、
ベイズ流の仮説検定では、なぜその逆になってしまうのかということです。

この原因は、比較している仮説の範囲が違うことによります。

仮説 $H_1$ では、50%というピンポイントを指しているのに対して、
仮説 $H_2$ では、50%以外の全てを指しています。

f:id:u874072e:20180405122753p:plain

仮説 $H_1$ の事後確率は、
データが確率50%からどれだけ離れているかを表すのに対して、
仮説 $H_2$ の事後確率は、
データが確率50%以外のそれぞれの場合とどれだけ離れているかを、
トータルで考えます。

データが49%が表だとすると、
仮説 $H_2$ の中には、49%についてマッチしているものもあれば、
44%や65%など、全くマッチしていないものも含まれるので、
トータルとしてのマッチ具合が小さく評価されてしまいます。

50%と49%など、ピンポイントのもの同士で比べれば、
このようなことにはなりませんが、
比べる範囲が異なっていると、
その範囲の大きさの違いが検定の結果に影響してしまうのです。

クイックノート

ちょっとした発見・アイデアから知識の発掘を

リンドレーのパラドックス【ベイズ流の仮説検定】