世界を変える何かは、既に近くにあるかもしれない

論文の盗作を検知するシステム

»

最近,研究論文の捏造や盗作が報告されることが多くなりましたね(たとえば最近ではは2ちゃんねるのこの記事).生命科学のようにリアルタイムの国際競争が激しい分野では,つい良心が麻痺してしまうのでしょうか.上記記事で言及されているテキスト大学のdejavuというシステムは,世界最大の医学文献抄録のデータベースMedlineのデータを用いて,論文同士の類似性を計算し,盗作の可能性がある論文とその引用元のリストを公開しています.7万件にもおよぶリストは,もちろん,すべては盗作なのではなく,あくまでもテキスト間の類似性が高いと判断されたものです.例えば,引用元と引用先で同一の著者を含んでいるものもあるし,ある論文の発展形として次の論文が執筆されることもあり得ます.リストでは,論文タイトルや著者名,類似度,同一著者を含むかのフラグなどのほかに,Medlineで使われているIDが付与されていますので,Medlineを使って両者の論文を比べてみることができます.いくつか見てみましたが,かなり微妙にみえるものもありますね.このdejavuシステム,同じくテキサス大学のeTBLASTというシステムをベースに作られています.eTBLASTは,単語ではなく論文中のフレーズ(単語列)を使って検索を行うシステムですが,dejavuは,これを論文の盗作の検知に利用しています.

別に盗用をしなくとも :-) eTBLASTに自分の論文の一部を入れると,似たような論文を教えてくれるわけで,これはこれで役に立ちそうですね (医学系の論文が対象ですが).また,英語の論文を書くとき,言いたいことを英語でどのように表現するか,という用途にも使えそうです.

Medlineでは,1800万件を超える論文抄録が無料で公開されています.dejavuの結果も同様です.このような姿勢は非常に素晴らしいと思います.

Comment(1)

コメント

コメントを投稿する