オルタナティブ・ブログ > ナレッジ!?情報共有・・・永遠の課題への挑戦 >

エンタープライズコラボレーションの今と今後を鋭く分析

国立情報学研究所の市民講座「膨大な文書の処理技術」に参加

»

 うちの会社から歩いて直ぐのところに国立情報学研究所がある。そこでは一般に公開した市民講座を開催しているのだが、情報学の研究機関だけあって私にとっては結構興味深いテーマが扱われることが多い。
 その市民講座の2月の回が「膨大な文書の処理技術 ―テキストの山を斬って見えてくるものは?―」というテーマだったので早速今日参加してきた。

 高須先生により講演内容は、最近のテキストマイニング技術についての解説だったが非常に面白く、そして為になった。以下講演内容からトピックをメモ的に紹介しておく。

  • テキストマイニング技術を使って大学生のレポートにおけるWikipedia等の記事のコピー率を調べて見たところ、最小は0%最大が87.3%平均は7.2%だった。長さ60文字での一致で見るとほとんどのレポートはオリジナル(コピー率10%以下)と判別できた。但し8割~9割コピーしている学生も若干名。
    独特のフレーズをWikipediaからコピーする学生となるともうちょっと割合が増えるし単語レベルになると大半がマッチする。どうやら学生はWikipediaを参考にして単語を選びながらも、一応文章を再組み立てしている様子が判った。
  • ワードサラダなどのスパムブログをこのコピー判定技術で判別したところ、日本のブログの12%がスパログだと判定。
  • テキストマイニング技術を使えば同一トピックに関する複数文書から要約文を作成することが可能。多くの文書に共有されている文、元の文書での位置(先頭に重要な文書が多い)、含まれる単語の重要性などを使って要約文を生成する。
  • テキストマイニング技術を使って潜在トピックを抽出し情報統合する技術を使って、同姓同名者の判別を行ったところ精度が7%上がった

 

 

Comment(0)