ナレッジ！？情報共有・・・永遠の課題への挑戦：ITmediaオルタナティブ・ブログ (RSS) ナレッジ！？情報共有・・・永遠の課題への挑戦

エンタープライズコラボレーションの今と今後を鋭く分析

2010年2月17日の投稿

2010年2月20日 »

国立情報学研究所の市民講座「膨大な文書の処理技術」に参加 2010/02/17

　うちの会社から歩いて直ぐのところに国立情報学研究所がある。そこでは一般に公開した市民講座を開催しているのだが、情報学の研究機関だけあって私にとっては結構興味深いテーマが扱われることが多い。
　その市民講座の2月の回が「膨大な文書の処理技術　―テキストの山を斬って見えてくるものは？―」というテーマだったので早速今日参加してきた。

　高須先生により講演内容は、最近のテキストマイニング技術についての解説だったが非常に面白く、そして為になった。以下講演内容からトピックをメモ的に紹介しておく。

テキストマイニング技術を使って大学生のレポートにおけるWikipedia等の記事のコピー率を調べて見たところ、最小は0%最大が87.3%平均は7.2%だった。長さ60文字での一致で見るとほとんどのレポートはオリジナル（コピー率10%以下）と判別できた。但し8割～9割コピーしている学生も若干名。
独特のフレーズをWikipediaからコピーする学生となるともうちょっと割合が増えるし単語レベルになると大半がマッチする。どうやら学生はWikipediaを参考にして単語を選びながらも、一応文章を再組み立てしている様子が判った。
ワードサラダなどのスパムブログをこのコピー判定技術で判別したところ、日本のブログの12%がスパログだと判定。
テキストマイニング技術を使えば同一トピックに関する複数文書から要約文を作成することが可能。多くの文書に共有されている文、元の文書での位置（先頭に重要な文書が多い）、含まれる単語の重要性などを使って要約文を生成する。
テキストマイニング技術を使って潜在トピックを抽出し情報統合する技術を使って、同姓同名者の判別を行ったところ精度が7%上がった

yoi

2010/02/17 20:52:20

Comment(0)

trackback(0)

« 2010年2月14日

2010年2月17日の投稿

2010年2月20日 »

» このブログのTOP

» オルタナティブ・ブログTOP

プロフィール

吉川　日出行

みずほ情報総研勤務。情報共有や情報活用を主テーマにコンサルティングや新ビジネスモデルの開発に携わっている。

詳しいプロフィール

カレンダー

2013年5月
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

カテゴリー

Blog/SNS（Intra)（43件）
Blog/SNS（Net）（69件）
EIP/WP（54件）
Enterprise2.0（22件）
ITコンサル/資格（20件）
KM（82件）
Mobile/PDA（42件）
SBM（19件）
Search（Intra)（33件）
Search（Net）（33件）
Wiki（10件）
○○症候群（6件）
その他（41件）
アプリケーション（2件）
グループウェア（43件）
コンサルティング（13件）
システムインテグレーション（23件）
セミナー・イベント（12件）
ソーシャルメディア（95件）
テクノロジー（44件）
ネットコミュニケーション（1件）
ネットコミュニケーション論（37件）
ハードウェア（1件）
ビジネス（2件）
ベンダー評価（11件）
ローテクKM（18件）
人生訓（19件）
企業内コンテンツ管理（8件）
動画/ストリーミング（8件）
実名ブログ（39件）
専門知識の無駄遣い（48件）
情報整理（31件）
書籍（12件）
社会（45件）
組織/風土（11件）
萌え興し/B級グルメ（20件）
調査/統計（83件）

オルタナティブ・ブログは、専門スタッフにより、企画・構成されています。入力頂いた内容は、アイティメディアの他、オルタナティブ・ブログ、及び本記事執筆会社に提供されます。

オルタナティブ・ブログ GUIDE

アイティメディアからのお知らせ

Special

- PR -

最近のエントリー

最近のコメント

テクネコ » えきねっとユーザなら覚えておくとよいこと
- at 2013/05/17 11:10:12
Yoshikawa » 「いつ繋げるの？今でしょ！」と思ったら「新幹線はモバイルルータではありませんから」と水を差された話
- at 2013/03/15 8:24:00
beat commander » 「いつ繋げるの？今でしょ！」と思ったら「新幹線はモバイルルータではありませんから」と水を差された話
- at 2013/03/15 8:24:00
Yoshikawa » 「いつ繋げるの？今でしょ！」と思ったら「新幹線はモバイルルータではありませんから」と水を差された話
- at 2013/03/15 8:24:00
beat commander » 「いつ繋げるの？今でしょ！」と思ったら「新幹線はモバイルルータではありませんから」と水を差された話
- at 2013/03/15 8:24:00
ひな » JR東海の新幹線車内無線LANはますますつながらなくなっていた
- at 2012/09/21 16:35:57
日高 » 名古屋萌え萌え化大作戦とは
- at 2009/05/29 21:00:00
TETSU » Windows8の発売イベントに行ってきました
- at 2012/10/26 11:55:10
Yoshikawa » サービスの問合せに回答したらサービスを真似されてしまった件
- at 2012/08/20 10:36:58
Yoshikawa » サービスの問合せに回答したらサービスを真似されてしまった件
- at 2012/08/20 10:36:58

最近のトラックバック

best online casinos ()
ときには探索範囲を変えてみよう (ナレッジ！？情報共有・・・永遠の課題への挑戦)
ツイートメール代替手段構築 (oh log)
面接の際に「貴社では会社からSNSにアクセスできますか？」と聞かれて、面接相手が外国人なら何と説明する？ (「走れ！プロジェクトマネージャー！」)
それは確かに楽しいんだけど・・・ (海辺のざわめき)
通話よりメールがねぇ (ノートの片隅)
Rock n Roll all Night！：オルタナ6周年総まとめ (事務局だより)
情シス部門の存在意義を問うクラウドサービス。米国では2割が導入の相談せず (Publickey)
IKEA家具のスペシャリスト (Witch House)
F-07Cは本気でWindows7搭載のケータイだった (ナレッジ！？情報共有・・・永遠の課題への挑戦)

Special オルタナトーク

仕事が嫌になった時、どう立ち直ったのですか?

エンタープライズ・ピックアップ

顧客に“ワォ！”という体験を提供――ザッポスに学ぶ企業文化の確立
単に商品を届けるだけでなく、サービスを通じて“ワォ！”という驚きの体験を届けることを目指している。ザッポスのWebサイトには、顧客からの感謝と賞賛があふれており、きわめて高い顧客満足を実現している。（12/17）

ちょっとした対話が成長を助ける――上司と部下が話すとき互いに学び合う
上司や先輩の背中を見て、仕事を学べ――。このように言う人がいるが、実際どのようにして学べばいいのだろうか。よく分からない人に、3つの事例を紹介しよう。（12/11）

悩んだときの、自己啓発書の触れ方
「自己啓発書は説教臭いから嫌い」という人もいるだろう。でも読めば元気になる本もあるので、一方的に否定するのはもったいない。今回は、悩んだときの自己啓発書の読み方を紹介しよう。（12/5）

考えるべきは得意なものは何かではなく、お客さまが高く評価するものは何か
自社製品と競合製品を比べた場合、自社製品が選ばれるのは価格や機能が主ではない。いかに顧客の価値を向上させることができるかが重要なポイントになる。（11/21）

なんて素敵にフェイスブック
夏から秋にかけて行った「誠ビジネスショートショート大賞」。吉岡編集長賞を受賞した作品が、山口陽平（応募時ペンネーム：修治）さんの「なんて素敵にフェイスブック」です。平安時代、塀に文章を書くことで交流していた貴族。「塀（へい）に嘯（うそぶ）く」ところから、それを「フェイスブック」と呼んだとか。（11/16）

部下を叱る2つのポイント
叱るのは難しい。上司だって人間だ、言いづらいことを言うのには勇気がいるもの。役割だと割り切り、叱ってはみたものの、部下がむっとしたら自分も嫌な気分になる。そんな時に気をつけたいポイントが2つある。（11/14）

第6回　幸せの創造こそ、ビジネスの使命
会社は何のために存在するのでしょうか。私の考えはシンプルです。人間のすべての営みは、幸せになるためのものです――。2012年11月発売予定の斉藤徹氏の新著「BE ソーシャル！」から、「はじめに」および、第1章「そして世界は透明になった」を6回に分けてお送りする。（11/8）

占い

2010年2月17日の投稿

2010年2月17日の投稿

Special

IT総合

デジタル・ガジェット

ビジネス

カルチャー

アプリ

企業IT

テクノロジー

エンジニアリング

キャリア