クイックノート

ちょっとした発見・アイデアから知識の発掘を

食べログ3.8問題を検証

先日、twitter上で食べログの星の数について、
ある問題が話題になりました。

食べログの闇として話題になったその問題とは、
「評価3.8以上は年会費を払わなければ3.6に下げられる」
というものです。

食べログは飲食店についての口コミを集めるサイトで、
その評価は実際のユーザーによって形成されるものとして広く認知されています。

専門的なグルメリポーターでもなく、
一般の人々の素直な感想を集めることで、
その飲食店のリアルな価値が知れると期待して、
利用しているユーザーも多いでしょう。

それだけに、
食べログが評価を恣意的に操作しているかもしれない」という話は、
瞬く間にネットで話題となりました。

さて、この話は実際に行われていることなのでしょうか。

食べログでは、当然評価点は公開されているので、
このような恣意的な操作があれば、
何らかの形で偏りが見つかるはずです。

ということで、食べログの評価点の偏りを分析して、
奇妙な偏りが存在しないかどうかを調べてみましょう。

方法

食べログにアクセスして公開されている各店舗の評価を取得し、
評価の分布に異常な偏りが存在しないかを確かめます。

評価数が少ないと、小数のユーザーで評価点がバラついてしまうので、
一定以上の評価数がある店舗に絞って情報を取得します。

取得したデータ

試しに地域を大阪に限定して、
評価数が一定数以上ある店舗1200店舗について、
食べログでの評価点を取得しました。

下の図は、横軸を評価数、縦軸を評価点として、
データをプロットしたものです。

f:id:u874072e:20191008100357p:plain
評価数と評価点

直観的には評価の数が多いほど評価点が高いイメージがありましたが、
グラフを見る限り、そのような傾向は見えませんね。

また、なんとなく、3.8付近に壁があり、
3.8以下は多いが、3.8以上は少ない様子が見えます。

この傾向をより正確にみるために、ヒストグラム化してみます。

評価点の分布

評価点に操作が加えられているなら、
特定の評価点に偏りが現れるはずです。

そこで、評価点がどのように分布しているかを調べます。

下の図は横軸を評価点、縦軸のその評価を獲得した店舗数として、
ヒストグラムを示したものです。

f:id:u874072e:20191008102755p:plain
評価点のヒストグラム

このグラフで注目したい特徴は以下の二つです。

  • 評価3.8の前後で大きく傾向が変わる
  • 評価3.6付近が異常に多い

評価3.8の壁

グラフを見ると、評価3.8までは、
その評価が付けられる店舗数が徐々に増えていますが、
3.8の直前でピークを迎えた後、
3.8を超える店舗は極めて稀になります。

評価3.8が壁として一つの天井になっていると言えます。

確かに、3.8以上を強制的に引き下げるという操作をしていれば、
このグラフに矛盾しませんね。

評価3.6が異常に多い

評価の高い店舗が少ないのは当然と言われればそうかもしれません。
ところが、3.8の壁以上にグラフで注目すべきは、
評価3.6付近が異常に多いことです。

3.6前後の評価は40店舗くらいにも関わらず、
その3~4倍の数の店舗が3.6付近の評価になっています。

明らかに全体の傾向から外れた異常な偏りです。

なるほど、3.8を超えた店舗を3.6に下げるような操作をすれば、
確かにこのような分布の偏りを矛盾なく説明できます。

まとめ

食べログの評価は「3.8を超えると3.6に下げられる」という話の真実性を、
食べログの評価の分布の偏りを調べることで調査しました。

結果としては、
- 3.8 を超える評価は極端に少ない
- 3.6 付近の評価は異常に多い
という話に矛盾しないような分布の偏りが認められることが分かりました。

もちろん、これだけでは真相は分かりませんが、
他にこの奇妙な偏りを説明することは難しいように思います。

仮に本当に操作が行われていれば、
ユーザーからのリアルな評価が知れるという
口コミサイトの特徴を大きく損なってしまうため、
今後の利用方法を考え直す必要があるかもしれません。

おまけ

大阪だけだと不安なので、
東京でも調べてみました。

下のグラフが東京の食べログ評価の分布です。

f:id:u874072e:20191008163225p:plain
東京の食べログ評価

結果は同様ですが、東京の方がより傾向が明らかに見えます。

プライバシーポリシー