クイックノート

ちょっとした発見・アイデアから知識の発掘を

確率密度が1を超えるのはおかしいか?

とある研究者が言いました。

「このグラフは確率が1を超えているからおかしい」
「1を超えてたら、足して1を超えてしまうからおかしいじゃないか」

ところが、そのグラフは確率密度関数の値を示したものです。
そして、確率密度が1を超えるのは何もおかしいことではありません。

その研究者の中では、確率と確率密度が混同されていたのでしょう。

普段、数式を扱う研究者でも、意外と数学を知りません。

必要条件と十分条件を理解していない
研究者にも遭遇したことがあります。

このような、研究者でも起こしうる間違いは、
普段、数学に慣れていない一般の人も、
起こしやすいのではないでしょうか。

ということで、確率密度とはどんなものか、
1を超えるのはおかしいは何故間違いなのか、
みていきましょう。

確率密度関数とは

確率密度関数という言葉に聞き覚えのない人でも、
正規分布のグラフは見たことがあるのではないでしょうか。

下のようなグラフです。

f:id:u874072e:20190405152339p:plain

上のグラフは、平均が0で標準偏差を0.1の正規分布
確率密度関数をプロットしたものです。

見ての通り、x=0付近では、1を軽く飛び越えていることがわかります。
そう確率密度は1を超えるのです。

では、この確率密度とは何なのでしょうか。
確率とは違うのでしょうか。

連続変数の確率

確率密度が何なのかを考える前に、
連続変数の確率を考えてみましょう。

連続変数とは、
身長170, 170.01, 170.0109, 170.0109・・・ のように測ろうと思えばいくらでも細かく測れるような数値をとる
変数のことです。

物理的には、測れる身長の最小単位があるかもしれませんが、
ほぼ無限に小さく測れるので、連続値とみなすと便利でしょう。

丁度一点に一致する確率

このような連続値だと、
ある一つの数値をとる確率を考えることが難しくなります。

例えば、身長170.000000000000・・・に丁度一致する確率は?
と聞かれると、そんな人はいないので、確率は0になります。

ということは、170.100000000・・・や、
他の数値で考えても、同じように確率はゼロになります。

あらゆる値で確率がゼロになるのです。

幅を持たせた確率

上のように、連続変数では一点に一致する確率は、
どの点でも0になり、
確率を考える意味がなくなることが大いにあり得ます。

では、連続変数で確率は考えてはいけないのでしょうか。

実は、一点で考えるのがまずかったので会って、
170〜171のように幅を持たせれば、意味はあるのです。

ぴったりでなければ、170.00100000・・・などは、
まとめて、170〜171の幅に入ってくるので、
カウントできるようになります。
つまり、確率がゼロではなくなります。

そうすると、
身長170〜171は190〜191よりも確率が高いというように、
幅を持たせたもの同士で、どちらの確率が高いかを考えることが出来ます。

積分すると確率に

連続変数は幅を持たせると意味ある確率が計算できるようになります。
この確率の計算に確率密度が使われます。

確率密度は大雑把にいってしまえば、
微小な幅と確率密度をかけてその微小な幅の確率になるような値です。

同じことですが、
幅を持たせて積分すると、
その幅の確率になるよう値が、
確率密度
です。

幅を全体に広げると、
全事象の確率になるので、確率は1です。

つまり、確率密度関数を全体で積分すれば、
常に1になる
のです。

これは、冒頭の「足して1を超えてしまうから」に対応する部分です。
連続変数の場合は「確率密度関数積分して1になる」のであって、
1点1点の確率密度を足すことに意味はないのです。

また、微小な幅と掛け合わせていない確率密度そのものと、
確率を混同してはいけない
のです。

確率密度が無限大

もっと極端な場合があります。

確率密度無限大という状況です。

x=0.000・・・
つまり、ゼロしか値をとり得ない状況での、
確率密度関数は、デルタ関数となります。

デルタ関数は、形式的にかけば、
 \delta(0) = \infty
 \delta(x) =0 (x\ne 0)
つまり、x=0では無限大で、それ以外では0の値をとります。

そう、確率密度は1を超えるどころか、
無限になることもある
のです。

まとめ

研究者でさえも間違えてしまう
「確率密度は1を超えるのか問題」について、
ごくごく簡単にまとめました。

連続変数での確率を考えることには、
幅を持たせて考えることが重要で、
幅を除いた確率密度自体の値と、
確率を混同してはいけません。

プライバシーポリシー