様々な評価対象、目的に応じて適合率と再現率を使い分けることの重要性がだんだんわかってきたかと思います。大学院生さん達にも「一生モノの道具(思考ツール)を有り難うございました!」と感謝されました。
特許サーチの事例ほど詳細には記さないとして、様々な事例をかいつまんで列挙すると、
- デジカメのベストショット自動選択機能
- BD、DVDレコーダのキーワードや履歴ベースの番組推薦機能
- 写真素材サイトでの、写真のレコメンド
- 就活の上流工程(探し始めの時期) vs 就活の下流工程で自分にぴったりの会社を探索
- - - - - - -
文字通り無限の応用事例があります。
最近の傾向として、ビッグデータ というバズワードを引き合いに出すまでもなく、「母集団が大きくて多数の候補があるのはわかってる。とにかく使えるもの、最適なもの1つを早く見つけたい」というニーズが急速に増大している、といえるでしょう。しからば、全体的傾向として、
再現率はどうてもいいから適合率を上げてくれ!というニーズが高まっている、となりますね。
これは一般人というか、アマチュア向けの基準であります。
「なぜ科学者は世界一をめざすか」というブルーバックス本のタイトルと同様、ビジネスでも潜在的には何らかの意味で「一番」でないと商品価値、市場価値は急落します。こう考えると、やはりプロフェッショナルな用途では、再現率が重要になる傾向が高い、といえるでしょう。
締めくくるにあたって、1つ、適合率と再現率(の推定値)を比較することで、重要な意思決定ができる事例をご紹介します。右図の「ソフトウェア・バグ」の潜在数を推定することによる出荷判定会議の意思決定です。とてもシビアなタスクです。
潜在数を含めた実在のバグのうちどれだけを検索、すなわちテストによって顕在化させられたか、テスト内容のカバレージがどれだけか、何らかの方法で調査、推定する。
例えば、適合率と推定再現率の比について最初は一定閾値を設け、その後諸条件を取り入れて拡張するなどで、意思決定の仕組み自体を洗練、高度化できるでしょう。
この課題は、成績を評価される営業マンはもちろん、研究開発部門、法務部門など、さまざまな管理系の部署所属の人にとっても興味深かったようです。- 特許サーチは、自社の技術開発ならびにその知的財産権確保、ひいては安心して関連製品を製造販売できるようにするための極めて重要なタスク
- 特に、研究開発投資を行い、製造せんばかりになって、いや、量産後に、また一定量販売後に、先行他社による類似特許が見つかった、とあっては、賠償金の支払いや製品回収、製造販売差し止め(特許権は超強力!)をくらいかねない、悲惨な自体に陥る
- かといって、 特許サーチに縛られて研究者の自由な発想がしぼんでしまっては元も子もない
- そこで、ブレインストーミングを何度か繰り替えして研究テーマを選び、絞る上流工程で自社の強みを技術面で評価、確認するなどの目的で行う特許サーチは、【読むに値する、非常に参考になる関連特許を適量発見】することが主目的となる。故に、読み手である技術者にとってノイズまみれでなく、狙ったテーマについて高い比率で、欲しかった特許明細書が多く含まれることが望ましい。すなわち、P=適合率重視!
- 一方、テーマが確定、固定し、研究成果が出ることが確実になって、そこから生み出される商品スペックがある程度固まってきたときには、万一にも、ほぼ同一の先行発明があっては、将来、上記2のような多大な損害を被り得る。そこで、自社特許内容とよく似た特許が存在していたら1つの取りこぼしもないように、検索できなければならない。 すなわち、R=再現率重視!
2006~2007年にかけて、国内ビジネススクールの雄、京都の同志社大学ビジネススクールで、MBAのタマゴさん達、といっても殆どは各種業務経験豊かな社会人学生さんでしたが、彼らを相手に、「技術評価と事業化」という科目で、様々な具体的評価手法の1つとして、適合率と再現率を取り上げました。
実際の業務経験を参照したレポートは非常に迫力があり、面白いものでした。次回、久々に眺めて、少々拾ってみます。

最近、音声入力がOSレベルで搭載されて実用化しつつあるので、お気づきの方も多いと思いますが、人間、音声でスピーチする時の方が、1文1文が長くなりがちです。どんな仕組みで重要語、重要フレーズを評価するにしても、絶対的に単語数、フレーズ数の多い1センテンスは、他のセンテンスよりも重要度の指数で高評価となりがちです。
※重要語が多いほど文の重要度を低下させるように逆に評価するのはさすがに間違いでしょう。平方根や対数をとって重要度増大効果を緩和することはあるかもしれませんが。
定義は実にシンプルです。何かを検索する、というタスクを考えていただけると分かり易いと思います。あるデータベース(Web全体みたいに巨大なものでもいいし手元のノートPCやタブレット内蔵の文書でもok)の中で、目的の文書群をみつけるための検索式(問い合わせ文)を打ち込みます。その結果返ってきた文書群が右図中の「検索システムの出力S」。そして、実は、データベース全体のどこかにある、「本当の正解A」という文書群があります。
どんなに素晴らしい検索エンジンでも、また、文抽出型の要約システムでもSとAが100%一致することはまずありません。ではそのズレをどう評価するか。
システムの出力結果Sのうち、正しくヒットしたものをHとします。このHは、当然、「本当の正解A」にも含まれるため、上記のベン図(Venn's Diagram) のような包含関係となります。その右に記したように、 H/Aが再現率(Recall)で、 H/Sが適合率(Precision)です。再現率は、「本来の正解のうちどれだけ(何%)をカバーできたか?」という意味なので、カバレージとか、「取りこぼしの少なさ」と読み替えると、すっとアタマに残ると思います。適合率は、英名Precisionの通り、いわゆる精度のこと。システムが「これが正解よ」と拾ったものの中に、どんだけ間違いが混ざってい【ない】かの指標。言い換えれば、「勇み足(誤り)の少なさ」と読み替えることができます。
前にも書きましたが文章要約の厳密な正解を1つに決める、なんて不可能に近いほど難しい仕事でしょう。どの程度の予備知識もった誰が何をするために読むのか?によっても正解が違うし、分量だけでも何通りもありそうです。我に返って考えてみれば、情報検索の正解だって定義するのはとても大変なはずですが、、、それはおいといて。
つまり、【正解が定義できたことにする】と、上図のシンプルな定義、再現率Rと適合率Pとで、精度の定量評価が出来てしまうのがポイントです。いったん検索や要約を忘れて、PとRを、「なんらかのシステム(人手で一定の手順で処理するのでもok)の出力と本当の正解の食い違いを評価する指標」ととらえてみましょう。実に普遍的、幅広い分野、テーマの評価に応用できそうだと思えませんか?
同志社ビジネススクールでの講義で私が強調させていただいたのは、なんらかの評価を行うとき、なぜ、どういう事情で、ある局面ではPを重視し、別の局面ではRを重視すべきか、正しい使い分けを行うべし、というポイントでした。
こう考えていくと、それまで退屈で苦痛だった「評価」の仕事が実にクリエイティブなもの、ととらえることができるのではないでしょうか? 先日の要約特有の評価基準5つを「発明」したときも非常に大きな知的興奮がありました。そんな時に大きく技術が進歩、応用が発展するものだ、という実感をもった瞬間でもありました。
前々回の 「サマライズとは?→把握・理解に要する時間の短縮! 」という新定義によれば、ちょっと補足して裏返した「ポイントをだいたい押さえてて簡単に理解できる」のが良い要約、となりそうです。しかし、要約の良し悪しを評価する基準は、これだけではないし、自明でもありません。適切な要約量か、(パラフレーズやレイアウトなど表現変更していれば)再構成された表現がわかりやすいか(1単位が小さくて短時間で読めるだけでなく、関連が正しく容易にアタマに入り快適に深く理解できる。。) まして、機械による要約の良し悪しについて、当面の妥当な判定基準、定量評価尺度を定めるのは困難です。
でも、ある程度共通的に合意された評価基準がない技術は発展が止まってしまいます。
(実際、文章要約研究はここ10年ほど足踏みしているようでもあります)
そこで数少ない、評価について果敢にチャレンジした文献の1つとして、私自身の博士論文をひもといてみたいと思います。大学から国会図書館に義務的に納品され、保管されている原本はこんな概見です:
中身は、図版入りの150頁超の1ファイルでも安定して編集できる一太郎ファイル(*.jtd) です。Windows7上の一太郎「承」で開いてみました。
要約を直接扱った部分は第6章です:
第6章 文の分割による長文短縮機能を備えた文章要約システム p. 94
6.1 従来の技術、人手による要約結果の分析 p. 94
6.1.1 MS-Word98, 一太郎8内蔵要約の性能水準 p. 95
6.1.2 同一原文を61人が別々に要約した結果の分析 p. 97
~類似検索エンジンにかけて得られた知見
6.2 本要約システムのアーキテクチャ、要素技術群
6.2.1 複数のエンジンを適材適所に配置
6.2.2 接続、陳述、照応現象を重視した談話解析
6.2.3 レイアウト解析とレトリック解析
6.3 要約結果の評価 p. 104
6.3.1 要約の正解コーパスと精度向上結果 p. 104
6.4 要約結果における事実優先vs.意見優先の制御 p. 106
6.5 最適要約率の自動推定 p. 108
6.6 3-pane鳥瞰型要約画面 ~Indicative / Informative Summaryの融合 p. 111
「6.3 要約結果の評価 」から、ポイントを抜粋いたします。
6.1節に記したように、要約結果の良し悪しを判定する評価尺度は自明ではない。新しいタイプの要約結果を出力できるようになる毎に、適切な評価方法を研究し考案する必要がある。人手による要約結果に対する評価をも評価可能な一般的な基準として、段階を踏んだ次の尺度を考えた[野村99a]。
●可読性=「主語~述語の捻れなど非文法的なつながりが生じていないかどうか」、
●了解性=「可読性がOKのものについて判定可;文法的には問題ないが主要な格要素、修飾語句の大部分が抜けているなど意味をなさない文となっていないかどうか」
●忠実性=「了解性がOKのものについてのみ判定可;意味が通る文になっていても、原文とは違う解釈の余地が生じていないか」
●十分性=「忠実性がOKのものについてのみ判定可;残存部分が原文と同じ意味解釈の内容であっても、原文に含まれていた別の命題内容(重文の場合など)や、主題・陳述内容が欠落していないかどうか」
●非冗長性=「了解性がOKのものについてのみ判定可;残存部分内部でどの程度冗長な記述があるか」
可読性および了解性は、要約文章(あるいは原文)単独で評価可能な尺度である。忠実性および十分性は、原文と要約文章との比較において初めて評価可能な尺度。非冗長性は、要約文章単独でも評価可能ではあるが、指定された要約率や、原文に内在する冗長性との比較において、相対的に冗長性を評価することに意味がある、と考えられる。
<引用終わり>
上記の5つの基準は概念的には妥当に成立しますが、定量評価に持ち込むのはなかなか難しいです。次回以降どこかで、正解が仮に一意に定義できたとして、それと比較して数値評価、自動評価が可能となる「適合率」「再現率」(情報検索の評価と同じです)に触れます。
その前に、他のITのタスクではなかなか登場しない評価尺度「忠実性」をとって、それが損なわれている例をみてみましょう。
■原文:
「今日は外は朝からとても気持ちの良い快晴の天気だ。でも、予報では午後は雨天の確率80%と言っていた。だから、悪い天気に備えて、傘をもって外にでかけよう。」
上記を入力として、tf*idf法(後日解説します)による重要フレーズ認定の手法で文の重要度をランキングすると、3文の中では、第1文と第3文が重要、と判定されます。第3文には動詞が2つあり、従属節があるのでそこをスキップすると、全体で半分くらいの文字数となります。
■要約結果:
「今日は外は朝からとても気持ちの良い快晴の天気だ。だから、・・・傘をもって外にでかけよう。」
いったいこの非論理的、支離滅裂な文は何でしょうか?
原文の意味を忠実に伝えているかといえば、否。すなわち、「忠実性」は大きく損なわれています。
文法、言語運用理論の言葉を使うと、因果関係を表す接続詞「だから」の参照先を削除してしまったために、違った参照先に結びつけられ、原文と著しく異なった因果関係を意味する、違う意味の文章になってしまった、と説明することができます。
この結果をまとめて比喩的に表現すると、「文章はつながり(結束性)をもっていて、下手な所で切ったら "血が出る"。」 「そこで、文章の一部をそぎ落とす作業の際には誤解を生じないように様々な配慮、操作が必要」ということになります。なかなかここまで配慮したサマライザはどの言語を見渡しても存在しないように見えます。CBサマライザ以外は。
かつて、要約本舗という名のサイト、有料サービスがありました。
新刊書、特にビジネス書などを数ページに要約し、それを数分で読めば、数百ページの書籍を買い求めて時間をかけて読まずともすむようにする、というサービスでした。
前回書いた「把握・理解に要する時間の短縮!」を見事に達成したサービス、ということができます。しかし、このサービスは、今、影も形もありません。作家連盟(?)だか、任意の何名かの書籍の著作者から著作権違反で訴えられ、彼らの主張が認められたからです。ほとんどの人が、そりゃそうだろう、と、原著作者に味方しました。原著作者に無断で、ゆえに対価も払わずに収益を上げつつあったからです。
まぁ、直感で一言でいえば「泥棒」でしょうね。著作権法はそれを理論的に支えるべく、妥当な処置と処罰を決めたもの、という感覚を多くの人が共有できると思います。
要約本舗側にもある種の著作権はありました。要約の類は、現著作物を前提として何らかの表現行為により作成された2次著作物だからです。
さて、肝心な点です。要約であればすべては犯罪なのでしょうか?
それは違うでしょう。前後や中途の切り詰めをしながら49%以下の文字量を「引用」することは著作権法も認めています。引用には事前の承諾も対価の支払いも不要です。上記の量的比率や原著作物を一意に辿れるメタ情報の表示など、引用の正当な慣行を守っていればokです。
実質的な境界線がどこにあるか?と問うなら、表記の識別、「2種類のサマリー Indicative vs Informative の違い」にある、と考えることができます。前者は、「これがどんな著作物であるか、サマリーの読み手に十分な判断材料を与えるもの」。もっといえば、「この原著作物を入手して(主に買い求めて)原文を読むべきかどうか(その人にとって読む価値、必要があるか)判断するに足る、(ごく)少量の情報を含むものが、Indicative Summaryです。
これに対し、Informative Summaryは、原文の要点を簡潔に記載し、ほぼ全ての大事なポイントを網羅しているので、現著作物の入手と咀嚼を不要にしてしまいます。現著作物が冗長で、つまり、長いだけで読みにくいものであれば、「把握・理解に要する時間の短縮 」に成功したInformative Summaryは、原著作物より優れたもの、といえるでしょう。文学作品ならともかく、ビジネス書などでは明らかに優れている、と言ってよいでしょう。
こう考えると、要約本舗のコンテンツは実に優秀なものだったのであり、また、多忙なビジネスマンに福音を与えるべく、まじめに努力して、原著作物の【改良】に励んだ成果物で対価を得ようとしたビジネスだった、との評価もありえます。しかしもちろん、Informative Summaryであるが故に、原著作物を売れなくしてしまう効果を意図し、実際に発揮しかけていたわけです。法的にも同義的にも、原著作者に対価を払わないというのはありえません。
要約本舗がなくなって一番不幸だったのは、潜在読者たるサラリーマン達だったともいえます。Informative Summaryという優れものの創作を奨励し、Win-Win-Winでみなが益をシェアする方向が議論されなかったのは残念、といえましょう。
かたや、Informative Summaryの多くは、著作権法上問題がないどころか、原著作物の売れ行きを向上させる意図と効果をもったものとなります。したがって、原著作者から対価を受け取るべき、という、まったく逆方向の金流、ビジネスを誘発するものでしょう。このあたり、十分な理解と共感を得られれば、さまざまな著作物の流通が促進され、必要な人に出会えるようになり、その好循環でオリジナル著作物や派生著作物の制作を促進し、ひいては、人類全体の幸福に寄与する、という【本来の著作権法の目的、精神】の実現に近づく、と考えられます。
「要約本舗」で検索しても、私の6年前のブログくらいしかまともにヒットしません。
上記のような考察、議論をもっと活発化できなかったのは、日本社会の知的活性化を沈滞させる、不幸な出来事だったのではないでしょうか。
この出力形式のデータ量(総バイト数)は、原文テキスト量と比べてどうなっているでしょうか?
加えて、左の「串刺し目次窓」に採られた、原文中の見出し類らしき行のテキストがあります。そして、全体として、HTMLのタグ類(右下窓の強調表示のための<b>タグなど)が加わります。
書をCBサマライザにかけて読んでもらいました。横で観察してましたら、まず、左の青いまどのスクロールバーをクリクリとマウスで動かし、何か見つけたらその行をクリック。瞬時に右上の要約窓が出てきて、こんどは、そこを、注目箇所の前後数カ所に、目を通しました。そんな風に10数回手を動かした中で、2回だけ、右上窓の省略箇所の前後をクリックして、右下の、強調表示付き「串刺し原文」にも目を落としました。
「全く欠落してしまった部分」が無いことが保証でき、仮にサマライズの精度がイマイチでも文句を言われない保険となります。しかしながら、最も保守的なユーザであっても、右下の強調付き全文表示窓を拡大してもっぱらそこを読み、太字表示を目で追う、という新しい読書スタイルを身につけ始めました。生真面目な性格がたたってか、それまでは、速読の類はいくら挑戦しても失敗していたとのことですが、システムが視点をうまく誘導してくれれば、何の苦労もなく速読できる、と。
右下の白地の小窓では、要約窓に抽出されたテキストを太字で強調表示しつつ、全体をつないだ全文の窓、となっています。
左下の「要約率の調整」のスライドバーはわかりやすいかと思います。要約率は、少し表現に迷いましたが「高」が大胆に省略して情報量を重要なものだけに絞り込んだもの、「低」がより多くのテキストを残したもの、を意味します。インターネットブーメラン付属のCBサマライザは、廉価版なので高中低の3段階のみとなっています。
CB Summarizer の′言語的′オプション機能 A ′Linguistic′ Option Control for CB Summarizer
同程度の要約率指定でも、事実優先 vs 意見優先 でこれほどの違いが出てまいります:
【事実優先】
------------------------------
如何でしょうか?
例文は、15年前のものですので、時代を感じさせるかもしれません 。
しかし、事実の表現 vs 意見的な言い回しの違いについては、当時も今も同じ日本語です。
※私は寡聞にして知らないので、ご存知の方いらっしゃいましたら是非教えて下さい。何語(英語、中国語、、)が対象の要約エンジンでも結構です。
明けましておめでとうございます。
ヒトを、創造的な部分で考えずに済むようにスポイルしたり、不毛な雑用(例えばアポ取りの事務)を増やすようなことに荷担するソフトを作ってはいけない。
逆に、これらの雑用を代行したり、ノリノリで創造的な仕事ができるよう、発想を刺激する。こんな、ヒトの知的能力を 拡大するソフトウェアを提供すべく、過去四半世紀に引き続き、今年も邁進してまいります。人間の事務作業、コミュニケーションの負担軽減ですので、どうしても、日本語や英語、中国語などの "自然言語" をある程度ソフトウェアが "理解" する必要があります。
その1つの局面は、要約(サマライズ)です。あるテーマ、作業の流れを取り巻く、どんな最新の事実や意見が語られているか、レポートされているか、その全体像を迅速にサマライズする機能へのニーズ、潜在ニーズは、どんどん高まっている。これを否定するヒトはいないでしょう。
15年前、と比べたら、Web上の情報量は恐らく1万倍以上になっていたりして、検索エンジンがいくら発達しようが、大事な記事、必要な情報の絶対量が増えているでしょう。しかし、それを理解、把握する、ヒトの能力は急に100倍、1000倍にはなりません。速度も容量も。そこで、サマライズはますます、加速度的に重要になっている。
もちろん、もっとビジュアルなサマリーもあります。その一例として、次回以降、上記日経ビジネスのインタビューでも触れた、「コトバノモリ」を紹介したいと思います。





顧客に“ワォ!”という体験を提供――ザッポスに学ぶ企業文化の確立
ちょっとした対話が成長を助ける――上司と部下が話すとき互いに学び合う
悩んだときの、自己啓発書の触れ方
考えるべきは得意なものは何かではなく、お客さまが高く評価するものは何か
なんて素敵にフェイスブック
部下を叱る2つのポイント
第6回 幸せの創造こそ、ビジネスの使命