クイックノート

ちょっとした発見・アイデアから知識の発掘を

朝日新聞デジタルの検索期限について調べてみた

朝日新聞デジタルでは、メタタグを使って謝罪文などが記載された記事を
検索の対象から外していることが明らかになり、話題となりました。

メタタグには時間制限付きで検索対象に加えるものもあり、
朝日新聞では、ほとんどの記事にこの検索期限を設定しています。

調べてみると、
検索期限の期間は記事によって異なった期間が設定されていることが分かったので、
この記事では、
どのような記事にどのような期間が設定されているのかを見ていきたいと思います。

メタタグによる検索対象の操作

Webサイト上の記事への主要なアクセス方法の一つは、
Google等の検索サイトを使ったアクセスです。

検索サイトでは、常に、ボットと呼ばれるソフトが、
インターネット上に公開されているWebページを集めて、
検索の対象に追加しています。

検索では、順位付けをされていて、
良いページを多く持っているサイトほど上位に表示されて、
多くの人のアクセスを集めることができます。

逆に中身のないページなど、
良くないページを持っていると順位が下がってしまいます。

中にはボットに取っては良くないと判断されるかもしれないけど、
このページは載せておきたいというページがあります。
例えば、使いまわしの規約文などは、
オリジナルのコンテンツではないので、評価が下がるかもしれませんが、
どこかには載せておきたいでしょう。

そのような事情を考慮するために、
ボットに対するメッセージをメタタグとしてページに記載することができます。
「このページは検索の対象にしないでね」
という感じです。

朝日新聞では、これを巧みに(?)使って、
訂正・謝罪記事を検索の対象から外すように設定していたことが分かり、
話題となりました。

このメタタグにはいくつか種類があって、
「検索対象から外すまでの期限」を設定するメタタグもあります。

そして、メタタグに強い(?)朝日新聞では、
この検索期限のメタタグを活用して、
記事に検索期限を設けていることが分かっています。

ニュースサイトが扱う記事はほとんどがタイムリーな話題のものなので、
一定の時期が過ぎると情報が古くなってしまい、
検索対象から外したいというのは納得できます。

ところが、調べてみると、この検索期限は記事事に大きくバラついていて、
半月のものから数年のものまであることが分かりました。

となると、どんな記事にどんな期限が設けられているのか気になりますね。
ということで検索期限について調べてみましょう。

検索期限の日数

まずは、全体的にどのような検索期限が設定されているかを見てみましょう。

朝日新聞デジタルの検索期限が設定されているページから、
1418ページを取り出してきて、設定されている検索期限を調べてみました。

設定されている期限の日数別に分けて円グラフで表示してみましょう。
左側が全体のもので、右側が「380日間」以外の日数が設定されているものを取り出しています。

f:id:u874072e:20180831124836p:plainf:id:u874072e:20180831124842p:plain

まずわかるのは、ほとんどの記事には固定で「380日間」という期限が設定されているということです。
およそ一年間で検索に反映されなくなるように設定しているということですね。

「380日間」以外を見ると、
検索期限は実に様々な設定がされています。

最短では15日のものから、最長で約70年のものまであります。

この期限の違いは、記事の内容と関係あるのでしょうか?

15日間の検索期限が設定された記事

一番短い検索期限が設定されていたのが、「15日間」なので、
まずは、この記事がどんな記事かを調べてみましょう。

その記事タイトルは、
「女子中学生の胸を触った疑い 佐賀県警巡査を逮捕」
「ユニホーム窃盗容疑の元巨人選手を不起訴処分 川崎区検
などでした。

穿って目でみると、
「警察やプロ野球選手に忖度してるの?」とも思えてきますが、
もしかすると、刑事事件というくくりで検索期限を短く設定しているのかもしれません。

ということで、タイトルに「逮捕」が含まれてる記事を見てみたところ、
他の記事は一般の人の逮捕を扱った記事はどれも「380日間」の検索期限が設定されていました。

検索期限を巧み(?)に使って、忖度してる疑惑が深まってしまいました。

90日間の検索期限が設定された記事

2番目に短い検索期限である「90日間」が設定された記事をみていきましょう。

記事のタイトルは
「最優秀選手にレアルのモドリッチ
エンゼルス大谷、9月3日に先発」
のように、スポーツ関連のものが多いようです。

スポーツの話題は情報が古くなるのがより早いという考えでしょうか。
こちらはそこそこ納得できる設定ですね。

検索期限が長く設定された記事

ちなみに今回調べたページの中で一番検索期限が長く設定された記事は、

『1人の男の再生物語「俺は頼り方が分かりません」(腰乃)』

という記事で、70年近くの期限が設定されています。

記事では、新作の漫画についての紹介記事となっているようです。

まとめ

朝日新聞デジタルで設定されている記事ごとの検索期限について、
記事の内容と照らしてみました。

スポーツが短めに設定されているのは、情報の寿命が短いからという説明ができそうですが、
巡査の逮捕やプロ野球選手の不起訴処分を扱った記事に、
15日間というとても短い期間が設定されているのは忖度な感じがしますね。

プライバシーポリシー