あれこれ考えるよりも作ってしまった方が早いんじゃね?と思う、ギークなサラリーマンのアジャイルな日々。

Google八分?WELQ(ウエルク)がGoogle検索結果から消えた

»

先日は、「精巣腫瘍患者から見たWELQの記事の問題点」という記事を書いた。

なんだか炎上している案件に粘着するのは嫌だが、仕事柄も個人的にも気になるWELQ問題。

昨日、NHKさんの取材を受けたときに気付いたのだが、WELQの検索結果が記事どころかトップページすら、つまり「welq.jp」配下の全てのコンテンツがGoogleのインデックスから消えている

7日に全ての記事の非公開化を決めた「Mery」始め、他に12/1に非公開化をした8つのキュレーションサイトを含めてGoogle上には以下のようにまだ数百万のIndexが残っている。

■Google上の各ドメインインデックス数
※「site:welq.jp」のようにして検索結果数を取得

welq_google_index.png

では、なぜ「WELQ」のみゼロ件になっているのか、可能性としてはまず以下の二つに分けられる。

  1. DeNA自身が消した
  2. Googleが消した
  3. その他(考えられるケースがあればコメントください)

1のDeNA自身が消したケースでは、

  • A:robots.txtで消した(全てのコンテンツをdisallow)
  • B:ページ自体にメタ情報(noindex)を入れた
  • C:Google Search Console上で「URLの削除」依頼をした

が考えられるが、Aのrobots.txt(https://welq.jp/robots.txt)を見てみると、

User-agent: *
Disallow: /add/
Disallow: /setting
Disallow: /notices
Disallow: /lists/

User-agent: baiduspider
Crawl-delay: 1

User-agent: baiduspider+
Crawl-delay: 1

User-agent: Yandex
Crawl-delay: 1

User-agent: Mediapartners-Google
Disallow:

Sitemap: https://welq.jp/sitemaps/sitemap.xml.gz

特に、炎上前と変わらない内容だし、そもそもsitemap.xmlには、現時点でも15,831件のURLが登録されている。

では、Bではどうかsitemap.xmlに登録されているURLのひとつ(例:https://welq.jp/175)にアクセスすると、

---request begin---
GET /175 HTTP/1.0
User-Agent: Wget/1.12 (linux-gnu)
Accept: */*
Host: welq.jp
Connection: Keep-Alive

---request end---
HTTP request sent, awaiting response...
---response begin---
HTTP/1.1 302 Moved Temporarily
Date: Tue, 06 Dec 2016 03:42:18 GMT
Content-Type: text/html
Content-Length: 154
Connection: keep-alive
Location: https://welq.jp/
Server: welq.jp
Expires: Tue, 06 Dec 2016 03:42:17 GMT
Cache-Control: no-cache

---response end---
302 Moved Temporarily
Registered socket 3 for persistent reuse.
Location: https://welq.jp/ [following]
Skipping 154 bytes of body: [<html>
<head><title>302 Found</title></head>
<body bgcolor="white">
<center><h1>302 Found</h1></center>
<hr><center>nginx</center>
</body>
</html>
] done.

ただの「302 Moved Temporarily」が返ってきて、トップページの謝罪文に飛ぶだけで、かつ、謝罪文のソースにはインデックスを拒否するメタタグは無いどころか、

<meta name="robots" content="index,follow">

しっかりと、SEO用のメタタグで「index,follow」という記述がある。

CのGoogle Search Consoleでも、URL削除依頼ができるが、URLをひとつひとつ申請していかないといけないのに加えて、削除は一時的なものでrobots.txtやメタタグでクロールをブロックしない限り約90日間で復活してしまう可能性がある。

なので、DeNA自身が検索結果からwelq.jpを消したというのは可能性が低いのではないかと考えている。

では、2のGoogleが消したケースでは、

  • D:302 Moved Temporarily の期間が長すぎたので自然消滅した
  • E:第三者の申告に基づき消した
  • F:Googleがポリシー違反で意図的に消した(いわゆるGoogle八分(ぐーぐるはちぶ))

が主に考えられるが、Dのケースだと他の非公開にしたキュレーションサイトも追って検索結果から消えていくのであれば、その可能性は強いが、他のサイトのインデックス減少推移を見る限り恐らく違うし、robots.txtやメタタグで検索ロボットのdisallow/noindex対策をしていないトップページすら残っていないのはおかしい。

Eのケースは、侵害を受けた国内の企業・団体・個人が出しているケースは多いと思われるし、もともと米国デジタルミレニアム著作権法違反(DMCA違反)で消されているコンテンツはポツポツあった。が、全コンテンツがインデックスから消されるというのは、このケースではありえない。

ということで、FのGoogleがポリシー違反で意図的に消した、つまりGoogle八分にされたというのが現時点では最も濃厚である。

なお、上記のようにポリシー違反を指摘され消されたケースというのはよくというわけではないが、全く無いわけではなく、キュレーションメディアが勃興する前のCGM/CGC/UGC(Consumer/User Generated Media/Content)の中心となしていたブログサイトではFC2や最近ではSeesaaブログ(シーサーブログ)が、サービス利用者であるブロガーが、2chまとめサイトやコピペサイトを開設しまくってトラフィックを集めまくった影響で一時Google上からドメインごと姿を消すということが起きている。このケースではブログプラットフォーム側はほぼ被害者である。

なお、Google八分は通常突然起こるものではなく、Google Search Consoleにサイトマスターが登録している場合、まずはGoogleから警告が来て、それに対応するのが遅れるとペナルティとしてGoogle八分になってしまう。またGoogle八分になった後に、それらの問題点を改善すればGoogle八分は取り消される。

ブログサイト等でのまとめやコピーサイトは、機械的にクロール結果をまとめていただけだったので、Googleに見つかりやすく機械的に警告⇒Google八分になるケースが多かったが、それを回避したのが最近問題になっているキュレーションサイトで、クラウドワークスやランサーズ等のクラウドソーシングサービスで1字1円以下のような安いコストでライターを集めて、Googleが機械的にコピーコンテンツと認識しないように人手でリライトしてオリジナルコンテンツ風にしていたのがGoogle八分を回避して、検索流入を伸ばしてきた肝の部分である。

今回、WELQ(ウエルク)が社会問題化し、Googleの検索ロジックにも懐疑の目が多く向けられるようになった、そして、このタイミングでGoogleのインデックスからWELQ(ウエルク)が消えたことで、ユーザーの利便性や、メディアとしての公共性や社会的意義を無視して、単なるSEOという小手先の手段でトラフィックを集めてきた、多くのキュレーションメディアは大きな方針転換を迫られるのではないだろうか。

関連記事:精巣腫瘍患者から見たWELQの記事の問題点

Comment(3)

コメント

今さきほど(2016年12月9日午前7時過ぎ)見たところ、mery.jp以外の全DeNAキュレーションサイトのインデックスが0件になっている模様です。

チェリーぼうや

CのサチコはトップのURLを指定すればそれに一致するURL(つまりすべてのページ)がインデックスから削除されるはず。ここ数ヵ月で仕様変更されてなければ。

なのでCが正解な気がします。

90日という時間制限付き(延長可能)も今回の場合にはDeNAには都合よく利にかなってるきがしますし。

コメントを投稿する