Pvsr0

 様々な評価対象、目的に応じて適合率と再現率を使い分けることの重要性がだんだんわかってきたかと思います。大学院生さん達にも「一生モノの道具(思考ツール)を有り難うございました!」と感謝されました。 

特許サーチの事例ほど詳細には記さないとして、様々な事例をかいつまんで列挙すると、

  1. デジカメのベストショット自動選択機能
  2. BD、DVDレコーダのキーワードや履歴ベースの番組推薦機能
  3. 写真素材サイトでの、写真のレコメンド
  4. 就活の上流工程(探し始めの時期) vs 就活の下流工程で自分にぴったりの会社を探索
  5.   - - - - - -

 文字通り無限の応用事例があります。

 最近の傾向として、ビッグデータ というバズワードを引き合いに出すまでもなく、「母集団が大きくて多数の候補があるのはわかってる。とにかく使えるもの、最適なもの1つを早く見つけたい」というニーズが急速に増大している、といえるでしょう。しからば、全体的傾向として、
再現率はどうてもいいから適合率を上げてくれ!というニーズが高まっている、となりますね。

 これは一般人というか、アマチュア向けの基準であります。

「なぜ科学者は世界一をめざすか」というブルーバックス本のタイトルと同様、ビジネスでも潜在的には何らかの意味で「一番」でないと商品価値、市場価値は急落します。こう考えると、やはりプロフェッショナルな用途では、再現率が重要になる傾向が高い、といえるでしょう。

3  締めくくるにあたって、1つ、適合率と再現率(の推定値)を比較することで、重要な意思決定ができる事例をご紹介します。右図の「ソフトウェア・バグ」の潜在数を推定することによる出荷判定会議の意思決定です。とてもシビアなタスクです。

 潜在数を含めた実在のバグのうちどれだけを検索、すなわちテストによって顕在化させられたか、テスト内容のカバレージがどれだけか、何らかの方法で調査、推定する。

 例えば、適合率と推定再現率の比について最初は一定閾値を設け、その後諸条件を取り入れて拡張するなどで、意思決定の仕組み自体を洗練、高度化できるでしょう。

   
nomuran

Pvsr0 この課題は、成績を評価される営業マンはもちろん、研究開発部門、法務部門など、さまざまな管理系の部署所属の人にとっても興味深かったようです。
 
 中でも印象的だったのが、全く独立に同じ答を導き出した、別々の会社の知財法務部門在籍の2名の方でした。その概略は次のような感じです:
  1. 特許サーチは、自社の技術開発ならびにその知的財産権確保、ひいては安心して関連製品を製造販売できるようにするための極めて重要なタスク
  2. 特に、研究開発投資を行い、製造せんばかりになって、いや、量産後に、また一定量販売後に、先行他社による類似特許が見つかった、とあっては、賠償金の支払いや製品回収、製造販売差し止め(特許権は超強力!)をくらいかねない、悲惨な自体に陥る
  3. かといって、 特許サーチに縛られて研究者の自由な発想がしぼんでしまっては元も子もない
  4. そこで、ブレインストーミングを何度か繰り替えして研究テーマを選び、絞る上流工程で自社の強みを技術面で評価、確認するなどの目的で行う特許サーチは、【読むに値する、非常に参考になる関連特許を適量発見】することが主目的となる。故に、読み手である技術者にとってノイズまみれでなく、狙ったテーマについて高い比率で、欲しかった特許明細書が多く含まれることが望ましい。すなわち、P=適合率重視!
  5. 一方、テーマが確定、固定し、研究成果が出ることが確実になって、そこから生み出される商品スペックがある程度固まってきたときには、万一にも、ほぼ同一の先行発明があっては、将来、上記2のような多大な損害を被り得る。そこで、自社特許内容とよく似た特許が存在していたら1つの取りこぼしもないように、検索できなければならない。                すなわち、R=再現率重視!
 如何でしょうか? 同じ特許サーチでも、研究開発のフェーズによって、P重視、R重視、と移り変わっていくこと、特許サーチの正しさ、適切さの評価に際してこのような考察、配慮をすべきだったことで、知財部門マネージャの人に「大変感動した!」と言っていただきました。
 評価、というと決して辛気くさいものでもなく、とても戦略的な、自社の研究開発、製造販売の方針を大きく左右するような局面で、PとRを巧みに使い分けるべし、という事例として、それこそ、講義室が知的興奮に包まれた瞬間でした。
Ipdl
nomuran

 
 大河ドラマ「八重の桜」のおかげで、今は会津が、そして2013年後半は、京都、同志社大学Doshisha_3 が大いに注目を集めるようになりそうです。実は私は、京都市内の同志社大学今出川キャンパス(旧薩摩藩邸;山本覚馬の居所!)で講義を担当したことがあります。

 2006~2007年にかけて、国内ビジネススクールの雄、京都の同志社大学ビジネススクールで、MBAのタマゴさん達、といっても殆どは各種業務経験豊かな社会人学生さんでしたが、彼らを相手に、「技術評価と事業化」という科目で、様々な具体的評価手法の1つとして、適合率と再現率を取り上げました。
 具体例の1つ、といっても非常に強力なモデル化のツールであり、思考のツールです。
右図のスライドを、実際に京都に出かけるずっと前に受講生に配布し、講義を1回もやらないうちに、レポートを提出してもらってました。
Pvsrkadai
■課題1 「現在、過去、未来の職務、プロジェクトの何らかの良し悪しを評価するにあたって、模範的/理想的な正解集合を用意することができ、それと現実の結果との比較で、適合率と再現率を求められそうな課題(評価テーマ)を具体的にあげてください。」
■課題2 「その課題におけるパフォーマンス、改善効果をより適切に評価できるのは、適合率の方か、再現率の方か、あるいは、F値など、それを適宜ミックスしたものになりそうかを考え、理由付きで回答してください。」

 実際の業務経験を参照したレポートは非常に迫力があり、面白いものでした。次回、久々に眺めて、少々拾ってみます。
nomuran

  前回、「正解がきちんと決まっていれば」自動的に評価できる、適合率と再現率のお話を書きました。 「意見優先」vs「事実優先」の要約コントロール でとりあげたCB Summarizerの訳し分け、ならぬ、要約し分けという課題もありました。今日は、重要そうな文を選んで文単位でダルマ落とし、というやり方では融通が利かなくて困る、という話題を手短かにご紹介します。
 だるま落としで意味不明になる事例今日は外は朝からとても気持ちの良い快晴の天気だ。だから、・・・傘をもって外にでかけよう。」もありましたが、今回は、このような問題は無く、確かに重要そうな語句を含む文が残ったし、意味のつながりも不可解だったり正反対になったりはしないもの、といたします。
Zenryoku
 これは、実際に、多数の入力文章を試作システムに要約させてみて気がついたことです。当時(も今も)、利用しやすかったのは、著作権上の問題がない、官僚の書く行政文書や、国会議事録でした。

 最近、音声入力がOSレベルで搭載されて実用化しつつあるので、お気づきの方も多いと思いますが、人間、音声でスピーチする時の方が、1文1文が長くなりがちです。どんな仕組みで重要語、重要フレーズを評価するにしても、絶対的に単語数、フレーズ数の多い1センテンスは、他のセンテンスよりも重要度の指数で高評価となりがちです。
※重要語が多いほど文の重要度を低下させるように逆に評価するのはさすがに間違いでしょう。平方根や対数をとって重要度増大効果を緩和することはあるかもしれませんが。

 特に、長ったらしい、と定評のあるのが国会での大臣、議員の演説でしょうか。
 実際、ある自民党大臣の所信表明演説は、ある1文が、1行40文字の折り返しで、なんと7行もありました。「私は」に始まって、「昨今の長期化する不況で苦しむ幾多の中小企業の皆様の状況を見て心を痛め、***に苦慮し、***、****、***、***」、と延々と動詞句を連用形でだらだら繋いでいってくれてます。
 最後に深々と頭を下げたと思しき、7行にまたがる長大な1文を含む記事をCB Summarizerプロトタイプにかけた結果は、
「私は、・・・・・全力を尽くす所存です。(拍手)」
でした。
 この事例は、評価につき合ってくれた当時の同僚達にバカ受けしました。
「確かに、この1文で言いたかったことはそれしか無いや!」
 私が設計・開発した、「文短縮」可能型サマライザが、1文1文の内部はいじらずに、文単位でダルマ落としするだけの「文選択」型サマライザに決定的に勝利を収めた瞬間でした。
nomuran

 2006年度と2007年度、同志社大学ビジネススクールに招かれて、技術評価について各3回の講義と、実習レポートを担当しました。この際に、自分自身で手がけた「要約」技術の開発をケーススタディの対象とし、その評価手法の中で、なるべく普遍性、汎用性のあるものを選んで、社会人院生さん達に「是非使ってみて!」と呼びかけました。
Pvsr
 それが、「適合率vs再現率」の議論です。
 定義は実にシンプルです。何かを検索する、というタスクを考えていただけると分かり易いと思います。あるデータベース(Web全体みたいに巨大なものでもいいし手元のノートPCやタブレット内蔵の文書でもok)の中で、目的の文書群をみつけるための検索式(問い合わせ文)を打ち込みます。その結果返ってきた文書群が右図中の「検索システムの出力S」。そして、実は、データベース全体のどこかにある、「本当の正解A」という文書群があります。

 どんなに素晴らしい検索エンジンでも、また、文抽出型の要約システムでもSとAが100%一致することはまずありません。ではそのズレをどう評価するか。

 システムの出力結果Sのうち、正しくヒットしたものをHとします。このHは、当然、「本当の正解A」にも含まれるため、上記のベン図(Venn's Diagram) のような包含関係となります。その右に記したように、 H/Aが再現率(Recall)で、 H/Sが適合率(Precision)です。再現率は、「本来の正解のうちどれだけ(何%)をカバーできたか?」という意味なので、カバレージとか、「取りこぼしの少なさ」と読み替えると、すっとアタマに残ると思います。適合率は、英名Precisionの通り、いわゆる精度のこと。システムが「これが正解よ」と拾ったものの中に、どんだけ間違いが混ざってい【ない】かの指標。言い換えれば、「勇み足(誤り)の少なさ」と読み替えることができます。

 前にも書きましたが文章要約の厳密な正解を1つに決める、なんて不可能に近いほど難しい仕事でしょう。どの程度の予備知識もった誰が何をするために読むのか?によっても正解が違うし、分量だけでも何通りもありそうです。我に返って考えてみれば、情報検索の正解だって定義するのはとても大変なはずですが、、、それはおいといて。Photo_4 つまり、【正解が定義できたことにする】と、上図のシンプルな定義、再現率Rと適合率Pとで、精度の定量評価が出来てしまうのがポイントです。
 いったん検索や要約を忘れて、PとRを、「なんらかのシステム(人手で一定の手順で処理するのでもok)の出力と本当の正解の食い違いを評価する指標」ととらえてみましょう。実に普遍的、幅広い分野、テーマの評価に応用できそうだと思えませんか?

 同志社ビジネススクールでの講義で私が強調させていただいたのは、なんらかの評価を行うとき、なぜ、どういう事情で、ある局面ではPを重視し、別の局面ではRを重視すべきか、正しい使い分けを行うべし、というポイントでした。
 例えば、企業の中で、特許のブレインストーミングを行ってある新規事業向けの技術開発を社内で行うべきか否かを決める局面。あるいは、もう製品発表間近で、他社の特許を侵害していないか調べる局面。同じ特許調査でも、P,Rどちらが重要であるかは、局面によって変わってきます。こんなとき、得てして、どうやって正解を定義できるか、すべきかの議論も非常にエキサイティングになってきます。

 こう考えていくと、それまで退屈で苦痛だった「評価」の仕事が実にクリエイティブなもの、ととらえることができるのではないでしょうか? 先日の要約特有の評価基準5つを「発明」したときも非常に大きな知的興奮がありました。そんな時に大きく技術が進歩、応用が発展するものだ、という実感をもった瞬間でもありました。
 
nomuran

 前々回の 「サマライズとは?→把握・理解に要する時間の短縮! 」という新定義によれば、ちょっと補足して裏返した「ポイントをだいたい押さえてて簡単に理解できる」のが良い要約、となりそうです。しかし、要約の良し悪しを評価する基準は、これだけではないし、自明でもありません。適切な要約量か、(パラフレーズやレイアウトなど表現変更していれば)再構成された表現がわかりやすいか(1単位が小さくて短時間で読めるだけでなく、関連が正しく容易にアタマに入り快適に深く理解できる。。) まして、機械による要約の良し悪しについて、当面の妥当な判定基準、定量評価尺度を定めるのは困難です。

 でも、ある程度共通的に合意された評価基準がない技術は発展が止まってしまいます。
(実際、文章要約研究はここ10年ほど足踏みしているようでもあります)Cimg0009

 そこで数少ない、評価について果敢にチャレンジした文献の1つとして、私自身の博士論文をひもといてみたいと思います。大学から国会図書館に義務的に納品され、保管されている原本はこんな概見です:

 中身は、図版入りの150頁超の1ファイルでも安定して編集できる一太郎ファイル(*.jtd) です。Windows7上の一太郎「承」で開いてみました。

 要約を直接扱った部分は第6章です:

第6章 文の分割による長文短縮機能を備えた文章要約システム           p. 94
6.1 従来の技術、人手による要約結果の分析                                       p. 94
6.1.1  MS-Word98, 一太郎8内蔵要約の性能水準                                 p. 95
6.1.2  同一原文を61人が別々に要約した結果の分析                           p.  97
                 ~類似検索エンジンにかけて得られた知見
6.2 本要約システムのアーキテクチャ、要素技術群       
6.2.1 複数のエンジンを適材適所に配置                                 
6.2.2 接続、陳述、照応現象を重視した談話解析                     
6.2.3 レイアウト解析とレトリック解析                                       
6.3 要約結果の評価                                                             p. 104
6.3.1 要約の正解コーパスと精度向上結果                                 p. 104

6.4 要約結果における事実優先vs.意見優先の制御                           p. 106
6.5 最適要約率の自動推定                                                            p.  108
6.6 3-pane鳥瞰型要約画面 ~Indicative / Informative Summaryの融合 p. 111

「6.3 要約結果の評価 」から、ポイントを抜粋いたします。
 6.1節に記したように、要約結果の良し悪しを判定する評価尺度は自明ではない。新しいタイプの要約結果を出力できるようになる毎に、適切な評価方法を研究し考案する必要がある。人手による要約結果に対する評価をも評価可能な一般的な基準として、段階を踏んだ次の尺度を考えた[野村99a]。
●可読性=「主語~述語の捻れなど非文法的なつながりが生じていないかどうか」、
●了解性=「可読性がOKのものについて判定可;文法的には問題ないが主要な格要素、修飾語句の大部分が抜けているなど意味をなさない文となっていないかどうか」
●忠実性=「了解性がOKのものについてのみ判定可;意味が通る文になっていても、原文とは違う解釈の余地が生じていないか」                  
●十分性=「忠実性がOKのものについてのみ判定可;残存部分が原文と同じ意味解釈の内容であっても、原文に含まれていた別の命題内容(重文の場合など)や、主題・陳述内容が欠落していないかどうか」
●非冗長性=「了解性がOKのものについてのみ判定可;残存部分内部でどの程度冗長な記述があるか」
  可読性および了解性は、要約文章(あるいは原文)単独で評価可能な尺度である。忠実性および十分性は、原文と要約文章との比較において初めて評価可能な尺度。非冗長性は、要約文章単独でも評価可能ではあるが、指定された要約率や、原文に内在する冗長性との比較において、相対的に冗長性を評価することに意味がある、と考えられる。Sunnyorrain_3<引用終わり>

  上記の5つの基準は概念的には妥当に成立しますが、定量評価に持ち込むのはなかなか難しいです。次回以降どこかで、正解が仮に一意に定義できたとして、それと比較して数値評価、自動評価が可能となる「適合率」「再現率」(情報検索の評価と同じです)に触れます。

 その前に、他のITのタスクではなかなか登場しない評価尺度「忠実性」をとって、それが損なわれている例をみてみましょう。

■原文: 
「今日は外は朝からとても気持ちの良い快晴の天気だ。でも、予報では午後は雨天の確率80%と言っていた。だから、悪い天気に備えて、傘をもって外にでかけよう。」

上記を入力として、tf*idf法(後日解説します)による重要フレーズ認定の手法で文の重要度をランキングすると、3文の中では、第1文と第3文が重要、と判定されます。第3文には動詞が2つあり、従属節があるのでそこをスキップすると、全体で半分くらいの文字数となります。

■要約結果: 
「今日は外は朝からとても気持ちの良い快晴の天気だ。だから、・・・傘をもって外にでかけよう。」

 いったいこの非論理的、支離滅裂な文は何でしょうか?
原文の意味を忠実に伝えているかといえば、否。すなわち、「忠実性」は大きく損なわれています。
 文法、言語運用理論の言葉を使うと、因果関係を表す接続詞「だから」の参照先を削除してしまったために、違った参照先に結びつけられ、原文と著しく異なった因果関係を意味する、違う意味の文章になってしまった、と説明することができます。

 この結果をまとめて比喩的に表現すると、「文章はつながり(結束性)をもっていて、下手な所で切ったら "血が出る"。」 「そこで、文章の一部をそぎ落とす作業の際には誤解を生じないように様々な配慮、操作が必要」ということになります。なかなかここまで配慮したサマライザはどの言語を見渡しても存在しないように見えます。CBサマライザ以外は。



nomuran

かつて、要約本舗という名のサイト、有料サービスがありました。
新刊書、特にビジネス書などを数ページに要約し、それを数分で読めば、数百ページの書籍を買い求めて時間をかけて読まずともすむようにする、というサービスでした。Yoyaku
 
前回書いた「把握・理解に要する時間の短縮!」を見事に達成したサービス、ということができます。しかし、このサービスは、今、影も形もありません。作家連盟(?)だか、任意の何名かの書籍の著作者から著作権違反で訴えられ、彼らの主張が認められたからです。ほとんどの人が、そりゃそうだろう、と、原著作者に味方しました。原著作者に無断で、ゆえに対価も払わずに収益を上げつつあったからです。

まぁ、直感で一言でいえば「泥棒」でしょうね。著作権法はそれを理論的に支えるべく、妥当な処置と処罰を決めたもの、という感覚を多くの人が共有できると思います。

要約本舗側にもある種の著作権はありました。要約の類は、現著作物を前提として何らかの表現行為により作成された2次著作物だからです。

さて、肝心な点です。要約であればすべては犯罪なのでしょうか?
それは違うでしょう。前後や中途の切り詰めをしながら49%以下の文字量を「引用」することは著作権法も認めています。引用には事前の承諾も対価の支払いも不要です。上記の量的比率や原著作物を一意に辿れるメタ情報の表示など、引用の正当な慣行を守っていればokです。

実質的な境界線がどこにあるか?と問うなら、表記の識別、「2種類のサマリー Indicative vs Informative の違い」にある、と考えることができます。前者は、「これがどんな著作物であるか、サマリーの読み手に十分な判断材料を与えるもの」。もっといえば、「この原著作物を入手して(主に買い求めて)原文を読むべきかどうか(その人にとって読む価値、必要があるか)判断するに足る、(ごく)少量の情報を含むものが、Indicative Summaryです。

これに対し、Informative Summaryは、原文の要点を簡潔に記載し、ほぼ全ての大事なポイントを網羅しているので、現著作物の入手と咀嚼を不要にしてしまいます。現著作物が冗長で、つまり、長いだけで読みにくいものであれば、「把握・理解に要する時間の短縮 」に成功したInformative Summaryは、原著作物より優れたもの、といえるでしょう。文学作品ならともかく、ビジネス書などでは明らかに優れている、と言ってよいでしょう。

こう考えると、要約本舗のコンテンツは実に優秀なものだったのであり、また、多忙なビジネスマンに福音を与えるべく、まじめに努力して、原著作物の【改良】に励んだ成果物で対価を得ようとしたビジネスだった、との評価もありえます。しかしもちろん、Informative Summaryであるが故に、原著作物を売れなくしてしまう効果を意図し、実際に発揮しかけていたわけです。法的にも同義的にも、原著作者に対価を払わないというのはありえません。

要約本舗がなくなって一番不幸だったのは、潜在読者たるサラリーマン達だったともいえます。Informative Summaryという優れものの創作を奨励し、Win-Win-Winでみなが益をシェアする方向が議論されなかったのは残念、といえましょう。

かたや、Informative Summaryの多くは、著作権法上問題がないどころか、原著作物の売れ行きを向上させる意図と効果をもったものとなります。したがって、原著作者から対価を受け取るべき、という、まったく逆方向の金流、ビジネスを誘発するものでしょう。このあたり、十分な理解と共感を得られれば、さまざまな著作物の流通が促進され、必要な人に出会えるようになり、その好循環でオリジナル著作物や派生著作物の制作を促進し、ひいては、人類全体の幸福に寄与する、という【本来の著作権法の目的、精神】の実現に近づく、と考えられます。

「要約本舗」で検索しても、私の6年前のブログくらいしかまともにヒットしません。
上記のような考察、議論をもっと活発化できなかったのは、日本社会の知的活性化を沈滞させる、不幸な出来事だったのではないでしょうか。

nomuran

 
Cbsumm
 同じ絵に再び登場願います。CBサマライザの3-paneサマライズ表示です(左図)。
 この出力形式のデータ量(総バイト数)は、原文テキスト量と比べてどうなっているでしょうか?
 右下の「強調表示付き原文」をみただけで、原文テキストの量を上回っていることは明白です。あと、表示されるテキスト量でいえば、右上の「要約窓」には、原文テキストに要約率をかけたデータ量+α(省略部分を表す「 ... 」や、改行など、見やすく把握していただくためのレイアウトのために文字コード量が若干増加します。
 加えて、左の「串刺し目次窓」に採られた、原文中の見出し類らしき行のテキストがあります。そして、全体として、HTMLのタグ類(右下窓の強調表示のための<b>タグなど)が加わります。
 
■サマリーなのに、テキスト量は2倍前後に増加している!
 →これが解答です。
 従来の学会等でのサマライズの定義では、テキスト量は減るもの、と相場が決まっていました。しかし、CBサマライザでは、テキスト量は増えています。では、何が著しく減ったのでしょう。
 このソフトを設計した私の考え、狙いでは、読者の、対象文書群の要点の把握・理解に要する時間が削減されます。
 
 実際、ある部門の部長さんに頼んで、外出の30分前に、
目を通さねばならない100本の文1 書をCBサマライザにかけて読んでもらいました。横で観察してましたら、まず、左の青いまどのスクロールバーをクリクリとマウスで動かし、何か見つけたらその行をクリック。瞬時に右上の要約窓が出てきて、こんどは、そこを、注目箇所の前後数カ所に、目を通しました。そんな風に10数回手を動かした中で、2回だけ、右上窓の省略箇所の前後をクリックして、右下の、強調表示付き「串刺し原文」にも目を落としました。
 
 そして、読み始めて15分。やおら「よし、わかった!有り難う!」とニッコリ笑い、ゆったりと外出の準備をしながら、見つかった2本の文書を数部ずつ印刷してクリップ止めし、出かけていきました。「把握・理解に要する時間の短縮することを目的としたCBサマライザ」が成功したことを確信した瞬間でした。
 意地悪くいえば、右下の強調表示付き原文があることで、2 「全く欠落してしまった部分」が無いことが保証でき、仮にサマライズの精度がイマイチでも文句を言われない保険となります。しかしながら、最も保守的なユーザであっても、右下の強調付き全文表示窓を拡大してもっぱらそこを読み、太字表示を目で追う、という新しい読書スタイルを身につけ始めました。生真面目な性格がたたってか、それまでは、速読の類はいくら挑戦しても失敗していたとのことですが、システムが視点をうまく誘導してくれれば、何の苦労もなく速読できる、と。
 
 ある保険会社さんでは、検索と串刺し要約の読み込みを数分に1度ずつ繰り返す、というスタイルで1000文書の重要ポイント全部に1時間以内に目を通せた、などのご報告がありました。「安心感が得られた」、「自分が賢い人間になった気分」、「残業が減りそうな気がしてきた」などの感想を聞いて嬉しくなったのを覚えています。
nomuran

一昨日のブログでは、CBサマライザを久々に起動し、その基本的な動作、機能を見ました。

Cbsumm_2

左のブルー地の小窓(pane)が、複数文書を入力としたとき、それらのレイアウト(小見出しなど)を解析して、全体を統合した目次を自動生成したもの。

右上のクリーム色バックの小窓が要約結果。省略された部分は「...」で表示しています。

右下の白地の小窓では、要約窓に抽出されたテキストを太字で強調表示しつつ、全体をつないだ全文の窓、となっています。

左下の「要約率の調整」のスライドバーはわかりやすいかと思います。
要約率は、少し表現に迷いましたが「高」が大胆に省略して情報量を重要なものだけに絞り込んだもの、「低」がより多くのテキストを残したもの、を意味します。インターネットブーメラン付属のCBサマライザは、廉価版なので高中低の3段階のみとなっています。
 

フルバージョンの企業向け CBサマライザでは、他にもスライドバーがあり、きめ細かい要約の制御を可能としています。その1つが、「「意見優先」vs「事実優先」の要約コントロール」です。

学会発表したショートペーパーをご覧下さい。

CB Summarizer の′言語的′オプション機能 A ′Linguistic′ Option Control for CB Summarizer

 仕組みの説明はこうなっています:「フレーズ単位の重要度判定の際に、陳述要素の与える正負の重み係数を加減することにより、事実の記述を優先して要約するか意見の記述を優先するかの度合いを制御する。
 何より、論文の下方にある具体例をご覧下さい。 
同程度の要約率指定でも、事実優先 vs 意見優先 でこれほどの違いが出てまいります:

事実優先】
パソコンで日本語を自由に使えるようにしたATOK。・・・「一太郎」は日本語ワードプロセッサのスタンダードとして多くのお客様にご活用いただいてまいりました。「一太郎」以外にも、「花子」、「三四郎」といったアプリケーションソフトにより、オフィス業務一般をデジタルで表現する手段をご提供してまいりました。・・・ジャストシステムもOM, JOSS, CB Serverと、コミュニケーションを強力に支援するアプリケーション、インフラを提供しております。

【意見優先
パソコンで日本語を自由に使えるようにしたATOK。ATOKは、日本語に強いジャストシステムの
礎を築きました。・・・ジャストシステムは、パソコンの歴史と共に歩んできました。今日、オフィスの道具にしかすぎなかったパソコンがコミュニケーション・メディアとして進化しつつあります。この進化は、・・・さらに力強くなろうとしているのであります。
  ------------------------------

 如何でしょうか?
例文は、15年前のものですので、時代を感じさせるかもしれません 。
しかし、事実の表現 vs 意見的な言い回しの違いについては、当時も今も同じ日本語です。
まったく古くないどころか、同程度の重要フレーズ、と認定された際に、事実優先vs意見優先をこれだけ制御できる文章要約エンジンは他には出現していないように見えます。
※私は寡聞にして知らないので、ご存知の方いらっしゃいましたら是非教えて下さい。何語(英語、中国語、、)が対象の要約エンジンでも結構です。



nomuran

明けましておめでとうございます。

 年末に日経ビジネスさんが取材に来られ、見事なインタビューで、メタデータ社や私の技術開発哲学を引き出されました。日経ビジネスdigital 2013年1月7日号キーパーソンに聞くです:
やる気が出て仕事が楽しくなり、出世の手伝いもしてくれるソフトとは? 野村直之・メタデータ社長に聞くPhoto1
ヒトを、創造的な部分で考えずに済むようにスポイルしたり、不毛な雑用(例えばアポ取りの事務)を増やすようなことに荷担するソフトを作ってはいけない。

 逆に、これらの雑用を代行したり、ノリノリで創造的な仕事ができるよう、発想を刺激する。こんな、ヒトの知的能力を 拡大するソフトウェアを提供すべく、過去四半世紀に引き続き、今年も邁進してまいります。人間の事務作業、コミュニケーションの負担軽減ですので、どうしても、日本語や英語、中国語などの "自然言語" をある程度ソフトウェアが "理解" する必要があります。
 
 その1つの局面は、要約(サマライズ)です。あるテーマ、作業の流れを取り巻く、どんな最新の事実や意見が語られているか、レポートされているか、その全体像を迅速にサマライズする機能へのニーズ、潜在ニーズは、どんどん高まっている。これを否定するヒトはいないでしょう。
 
 ちなみに、ここで要約とは、単純に文字量を減らすことではありません。文字量増やしても、全体の把握、理解に要する時間が短縮できるように構造化、再編成して「見える化」すれば、それこそサマライズである! と15年前、Justsytems社でCB Summarizerという文書要約製品を研究開発した際に、はたと思い当たりました。※この際に得た知見は、要約の評価尺度から、具体的に、「意見優先 vs 事実優先」で要約する手がかりに至るまで、膨大なものがありました。
 
  15年前、と比べたら、Web上の情報量は恐らく1万倍以上になっていたりして、検索エンジンがいくら発達しようが、大事な記事、必要な情報の絶対量が増えているでしょう。しかし、それを理解、把握する、ヒトの能力は急に100倍、1000倍にはなりません。速度も容量も。そこで、サマライズはますます、加速度的に重要になっている。
 
 この状況を「要サマライズ!の時代」と呼びたいと思います。
 
解決方法ですが、サマライズ結果は何も、テキストだけではありません。
15年前の時点で、[目次]-[サマリ]-[強調表示付き全文(複数記事の結合結果)]の3paneの形に構造化した私の試みが次図です。CB Summarizerの簡易版を搭載した、「インターネットブーメラン」を先ほど久々に動かしてみたものです。(Windows7Pro のXPモードで動きました)
Cb_summarizer_3pane
もちろん、もっとビジュアルなサマリーもあります。その一例として、次回以降、上記日経ビジネスのインタビューでも触れた、「コトバノモリ」を紹介したいと思います。
 
nomuran


プロフィール

野村 直之

野村 直之

メタデータ株式会社代表取締役。自然言語処理でWeb, ITをもっと使いやすく!個人情報フィルタ、リアルタイム有害情報検出やパーソナル広告等ご紹介します。

詳しいプロフィール

Special

- PR -
最近のトラックバック
カレンダー
2013年2月
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28    
nomuran
Special オルタナトーク

仕事が嫌になった時、どう立ち直ったのですか?

エンタープライズ・ピックアップ

news094.gif 顧客に“ワォ!”という体験を提供――ザッポスに学ぶ企業文化の確立
単に商品を届けるだけでなく、サービスを通じて“ワォ!”という驚きの体験を届けることを目指している。ザッポスのWebサイトには、顧客からの感謝と賞賛があふれており、きわめて高い顧客満足を実現している。(12/17)

news094.gif ちょっとした対話が成長を助ける――上司と部下が話すとき互いに学び合う
上司や先輩の背中を見て、仕事を学べ――。このように言う人がいるが、実際どのようにして学べばいいのだろうか。よく分からない人に、3つの事例を紹介しよう。(12/11)

news094.gif 悩んだときの、自己啓発書の触れ方
「自己啓発書は説教臭いから嫌い」という人もいるだろう。でも読めば元気になる本もあるので、一方的に否定するのはもったいない。今回は、悩んだときの自己啓発書の読み方を紹介しよう。(12/5)

news094.gif 考えるべきは得意なものは何かではなく、お客さまが高く評価するものは何か
自社製品と競合製品を比べた場合、自社製品が選ばれるのは価格や機能が主ではない。いかに顧客の価値を向上させることができるかが重要なポイントになる。(11/21)

news094.gif なんて素敵にフェイスブック
夏から秋にかけて行った「誠 ビジネスショートショート大賞」。吉岡編集長賞を受賞した作品が、山口陽平(応募時ペンネーム:修治)さんの「なんて素敵にフェイスブック」です。平安時代、塀に文章を書くことで交流していた貴族。「塀(へい)に嘯(うそぶ)く」ところから、それを「フェイスブック」と呼んだとか。(11/16)

news094.gif 部下を叱る2つのポイント
叱るのは難しい。上司だって人間だ、言いづらいことを言うのには勇気がいるもの。役割だと割り切り、叱ってはみたものの、部下がむっとしたら自分も嫌な気分になる。そんな時に気をつけたいポイントが2つある。(11/14)

news094.gif 第6回 幸せの創造こそ、ビジネスの使命
会社は何のために存在するのでしょうか。私の考えはシンプルです。人間のすべての営みは、幸せになるためのものです――。2012年11月発売予定の斉藤徹氏の新著「BE ソーシャル!」から、「はじめに」および、第1章「そして世界は透明になった」を6回に分けてお送りする。(11/8)

オルタナティブ・ブログは、専門スタッフにより、企画・構成されています。入力頂いた内容は、アイティメディアの他、オルタナティブ・ブログ、及び本記事執筆会社に提供されます。


サイトマップ | 利用規約 | プライバシーポリシー | 広告案内 | お問い合わせ