オルタナティブ・ブログ > THE SHOW MUST GO ON >

通信業界特殊偵察部隊のモノゴトの見方、見え方、考え方

PerplexityがAIが生成したとする剽窃記事あるいは捏造記事を量産してると批判されている件

»

世の中的に生成AIが開く素晴らしい未来を語らないと時代に取り残された化石のような扱いすら受ける昨今ですが、そんな中、実は先週来米国の生成AIを活用したメディアを標榜するLLMに頼らないPerprlexityがForbesやWIREDなどからめちゃめちゃ叩かれています。
例えばITmediaの 「ソフトバンクと提携のPerplexity、「記事を盗用した」とForbesが非難」 2024年6月20日 という記事にもありますが、ほぼ完ぺきな剽窃記事を自社の記事としてサイトに掲出し、それに対するクレームには反応していないという状況のようです。

実際たとえばWIREDやForbesを見ると... というか有料記事ばかりなのですが、見出しだけ見てもかなり強い批判記事を展開しています。

生成AIの出力結果は基本的に読ませた元データを元に何かしら生み出すもので、でもそのソースを明確には提示できない=著作権等の問題を最初から解決できる方法が無い仕組みなのですが、その一番悪い状態の一つがここに出てきているような気がします。

私自身、テクノロジーが作り上げるモノの未来については一応理解しているつもりです。 でも、誰かの創造物や著作物にフリーライドするような仕組みの存在はヒトとして許すべきではないでしょくらいの事は思っています。

WIREDの怒り

AI検索「Perplexity」の記事盗用疑惑を独自調査──無断スクレイピングで回答を生成か 2024.06.27
WIRED日本語版の記事。その内容については皆さんが読んで判断していただければと思いますが、抜かれた方から抜いたと裏が取れていると主張される時点で駄目でしょと私は思ってしまいます。

Perplexity Is a Bullshit Machine 19, 2024 9:00 AM
(Perplexityはクソ)
WIREDの本家サイトなので英語の記事です。タイトルの日本語訳は私が勝手に付けましたが、怒り具合が伝わってきます。

荒ぶるForbes

Perplexity AI Vs Journalism: The Risks We Need To Anticipate Jun 25, 2024,01:30pm EDT
(Perplexity AIとジャーナリズム; 備えるべきリスク)

Garbage In, Garbage Out: Perplexity Spreads Misinformation From Spammy AI Blog Posts Jun 26, 2024,01:47pm EDT
(ゴミが入り、ごみが出てくる; PerplexityがスパムなAIブログポストで拡散させる正しくない情報)

Forbes英語版のサイトの記事です。ということで英語記事ではありますが、こちらもタイトルの日本語訳は私が勝手に付けました。しかしやはり怒りが溢れ出しています。なお両方とも基本的に有料記事なのですが、私の場合、前者は購読申込画面を消すと読めました。

何も言わないPerplexity

例えばForbsのこの記事
Toys 'R' Us AI-Generated Ad Controversy, Explained Jun 26, 2024,01:52pm EDT
トイザらスが生成AIで作った新しいテレビCMってどうよという記事なんですが、それがPerplexityでは...

Toys 'R' Us AI-Generated Ad 2024年6月27日 13:15 JST (Curated by Perplexity Team)
として検索できます。一応キュレートした結果だよと提示し、画像も引っ張ったサイトのURLの企業名っぽい部分を画像に重ねて表示したりしてます。でも、英語ですけれど読むと人間が書いた元記事に対して「あー生成AIがまとめたんだな」ってのが解る気がします。勿論生成AIが書いているのを知っているというバイアスはかかりますが、でも、なんかちょっと違う感じがします。

まぁこれが典型的なPerplexityのコンテンツなわけですが、なんかちょっと気持ち悪いです。個人的には。

そして剽窃や盗用の話については少なくとも6月18日までに返答期限10日としてForbsから出された質問状に6月20日の時点では返答していないようです。海外でも返答について報道されているものを見つけることができないので、少なくとも回答内容は公表されてはいないと思われます。

じゃぁPerplexityに聞いてみよう

因みに Perplexityで[Wired Perplexity]というキーワードで検索(?)するとこんな答えが。

Q: wired perplexity
Answer
Wired magazine conducted an investigation into Perplexity, an AI search startup, and published their findings in a recent article. Here are the key points from their investigation:

  1. Perplexity's chatbot appears to be scraping websites without permission, including those that have explicitly blocked the company's crawler through robots.txt files.
  2. The AI chatbot tends to show "hallucinations" or generate inaccurate information when responding to queries.
  3. Wired found that Perplexity was using at least one undisclosed IP address to access websites, including those owned by Condé Nast, which had blocked Perplexity's official crawler.
  4. The company initially provided a list of IP addresses used by its crawler but later removed this information from its documentation.
  5. Perplexity's chatbot doesn't always directly summarize news articles. Instead, it often reconstructs content based on URL snippets, metadata, or traces left in search engines.
  6. The investigation suggests that when Perplexity can't access an article directly, it likely guesses the content based on data collected by search engines like Google.
  7. Wired describes Perplexity as a "BS machine" due to its unclear methods of obtaining and synthesizing information.
  8. The startup has quickly gained popularity and reached a valuation of nearly $1 billion, despite the concerns raised about its practices.
  9. Perplexity's CEO, Aravind Srinivas, has claimed that the company is not ignoring robots.txt instructions but relies on third-party crawlers in addition to its own.

This investigation has raised questions about Perplexity's data collection methods, the accuracy of its responses, and its adherence to web scraping protocols. It also highlights broader concerns about how AI search tools obtain and use information from the internet.

wired_1.PNG

wired_2.PNG

こちらは面倒なのでGoogle先生に翻訳してもらいました。

Wired 誌は AI 検索のスタートアップ企業 Perplexity を調査し、その調査結果を最近の記事で公開しました。調査の要点は次のとおりです。

  1. Perplexity のチャットボットは、robots.txt ファイルを通じて同社のクローラーを明示的にブロックしているサイトも含め、許可なく Web サイトをスクレイピングしているようです。。
  2. AIチャットボットは、質問に答える際に「幻覚」を見せたり、不正確な情報を生成したりする傾向がある。
  3. ワイアードは、パープレキシティが少なくとも1つの非公開IPアドレスを使用してウェブサイトにアクセスしていることを発見した。その中には、パープレキシティの公式クローラーをブロックしていたコンデナスト所有のウェブサイトも含まれていた。
  4. 同社は当初、クローラーが使用するIPアドレスのリストを提供していたが、後にこの情報をドキュメントから削除した。。
  5. Perplexityのチャットボットは、必ずしもニュース記事を直接要約するわけではありません。代わりに、URLスニペット、メタデータ、または検索エンジンに残された痕跡に基づいてコンテンツを再構築することがよくあります。。
  6. 調査によると、パープレキシティが記事に直接アクセスできない場合、Googleなどの検索エンジンが収集したデータに基づいてコンテンツを推測する可能性が高いことが示唆されている。。
  7. Wiredは、Perplexityを、情報を取得および統合する方法が不明瞭なため「BSマシン」と表現している。
  8. このスタートアップは、その慣行に関する懸念にもかかわらず、急速に人気を集め、評価額が10億ドル近くに達した。
  9. パープレキシティのCEO、アラヴィンド・スリニヴァスは、同社はrobots.txtの指示を無視しているのではなく、自社のクローラーに加えてサードパーティのクローラーに依存していると主張している。。

この調査により、Perplexity のデータ収集方法、回答の正確性、Web スクレイピング プロトコルの遵守について疑問が生じています。また、AI 検索ツールがインターネットから情報を取得して使用する方法についての幅広い懸念も浮き彫りになっています。

-----

どうなんでしょうね。
なお、個人的には生成AIが作った何かという風に判ってしまうと、あるいはなんかそんな感じがするコンテンツって、文字でも画像でも映像でも、今一つしっくりきません。

更に言うと、あ、生成AI自体はその活用したい分野や方法にも勿論依存するのは百も承知なのですが、例えば「そもそも食わせた情報からしか何かを作れないものに未来の夢を見るってどうなのかな」と思うことはあります。

まぁこの分野は素人なのですが、それでもずいぶん昔にノルウェーのサーチのエンジン (サーチのサービスじゃないです) を使ったエンタープライズサーチのソリューションのマーケティング担当したこともある程度ではあります。
20年早かったかなw

Comment(0)