| « 2010年2月14日 | 2010年2月17日の投稿 |
2010年2月20日 » |
うちの会社から歩いて直ぐのところに国立情報学研究所がある。そこでは一般に公開した市民講座を開催しているのだが、情報学の研究機関だけあって私にとっては結構興味深いテーマが扱われることが多い。
その市民講座の2月の回が「膨大な文書の処理技術 ―テキストの山を斬って見えてくるものは?―」というテーマだったので早速今日参加してきた。
高須先生により講演内容は、最近のテキストマイニング技術についての解説だったが非常に面白く、そして為になった。以下講演内容からトピックをメモ的に紹介しておく。
- テキストマイニング技術を使って大学生のレポートにおけるWikipedia等の記事のコピー率を調べて見たところ、最小は0%最大が87.3%平均は7.2%だった。長さ60文字での一致で見るとほとんどのレポートはオリジナル(コピー率10%以下)と判別できた。但し8割~9割コピーしている学生も若干名。
独特のフレーズをWikipediaからコピーする学生となるともうちょっと割合が増えるし単語レベルになると大半がマッチする。どうやら学生はWikipediaを参考にして単語を選びながらも、一応文章を再組み立てしている様子が判った。 - ワードサラダなどのスパムブログをこのコピー判定技術で判別したところ、日本のブログの12%がスパログだと判定。
- テキストマイニング技術を使えば同一トピックに関する複数文書から要約文を作成することが可能。多くの文書に共有されている文、元の文書での位置(先頭に重要な文書が多い)、含まれる単語の重要性などを使って要約文を生成する。
- テキストマイニング技術を使って潜在トピックを抽出し情報統合する技術を使って、同姓同名者の判別を行ったところ精度が7%上がった
| « 2010年2月14日 | 2010年2月17日の投稿 |
2010年2月20日 » |
- Blog/SNS(Intra)(43件)
- Blog/SNS(Net)(69件)
- EIP/WP(54件)
- Enterprise2.0(22件)
- ITコンサル/資格(20件)
- KM(82件)
- Mobile/PDA(42件)
- SBM(19件)
- Search(Intra)(33件)
- Search(Net)(33件)
- Wiki(10件)
- ○○症候群(6件)
- その他(41件)
- アプリケーション(2件)
- グループウェア(43件)
- コンサルティング(13件)
- システムインテグレーション(23件)
- セミナー・イベント(12件)
- ソーシャルメディア(95件)
- テクノロジー(44件)
- ネットコミュニケーション(1件)
- ネットコミュニケーション論(37件)
- ハードウェア(1件)
- ビジネス(2件)
- ベンダー評価(11件)
- ローテクKM(18件)
- 人生訓(19件)
- 企業内コンテンツ管理(8件)
- 動画/ストリーミング(8件)
- 実名ブログ(39件)
- 専門知識の無駄遣い(48件)
- 情報整理(31件)
- 書籍(12件)
- 社会(45件)
- 組織/風土(11件)
- 萌え興し/B級グルメ(20件)
- 調査/統計(83件)
オルタナティブ・ブログは、専門スタッフにより、企画・構成されています。入力頂いた内容は、アイティメディアの他、オルタナティブ・ブログ、及び本記事執筆会社に提供されます。

顧客に“ワォ!”という体験を提供――ザッポスに学ぶ企業文化の確立
ちょっとした対話が成長を助ける――上司と部下が話すとき互いに学び合う
悩んだときの、自己啓発書の触れ方
考えるべきは得意なものは何かではなく、お客さまが高く評価するものは何か
なんて素敵にフェイスブック
部下を叱る2つのポイント
第6回 幸せの創造こそ、ビジネスの使命