オルタナティブ・ブログ > メタデータが拓くリアルタイムでパーソナルなサービス >

セマンティックの波と情報セーフティネット

要約の質の評価基準5つ(私案)

»

 前々回の 「サマライズとは?→把握・理解に要する時間の短縮! 」という新定義によれば、ちょっと補足して裏返した「ポイントをだいたい押さえてて簡単に理解できる」のが良い要約、となりそうです。しかし、要約の良し悪しを評価する基準は、これだけではないし、自明でもありません。適切な要約量か、(パラフレーズやレイアウトなど表現変更していれば)再構成された表現がわかりやすいか(1単位が小さくて短時間で読めるだけでなく、関連が正しく容易にアタマに入り快適に深く理解できる。。) まして、機械による要約の良し悪しについて、当面の妥当な判定基準、定量評価尺度を定めるのは困難です。

 でも、ある程度共通的に合意された評価基準がない技術は発展が止まってしまいます。
(実際、文章要約研究はここ10年ほど足踏みしているようでもあります)Cimg0009

 そこで数少ない、評価について果敢にチャレンジした文献の1つとして、私自身の博士論文をひもといてみたいと思います。大学から国会図書館に義務的に納品され、保管されている原本はこんな概見です:

 中身は、図版入りの150頁超の1ファイルでも安定して編集できる一太郎ファイル(*.jtd) です。Windows7上の一太郎「承」で開いてみました。

 要約を直接扱った部分は第6章です:

第6章 文の分割による長文短縮機能を備えた文章要約システム           p. 94
6.1 従来の技術、人手による要約結果の分析                                       p. 94
6.1.1  MS-Word98, 一太郎8内蔵要約の性能水準                                 p. 95
6.1.2  同一原文を61人が別々に要約した結果の分析                           p.  97
                 ~類似検索エンジンにかけて得られた知見
6.2 本要約システムのアーキテクチャ、要素技術群       
6.2.1 複数のエンジンを適材適所に配置                                 
6.2.2 接続、陳述、照応現象を重視した談話解析                     
6.2.3 レイアウト解析とレトリック解析                                       
6.3 要約結果の評価                                                             p. 104
6.3.1 要約の正解コーパスと精度向上結果                                 p. 104

6.4 要約結果における事実優先vs.意見優先の制御                           p. 106
6.5 最適要約率の自動推定                                                            p.  108
6.6 3-pane鳥瞰型要約画面 ~Indicative / Informative Summaryの融合 p. 111

「6.3 要約結果の評価 」から、ポイントを抜粋いたします。
 6.1節に記したように、要約結果の良し悪しを判定する評価尺度は自明ではない。新しいタイプの要約結果を出力できるようになる毎に、適切な評価方法を研究し考案する必要がある。人手による要約結果に対する評価をも評価可能な一般的な基準として、段階を踏んだ次の尺度を考えた[野村99a]。
●可読性=「主語~述語の捻れなど非文法的なつながりが生じていないかどうか」、
●了解性=「可読性がOKのものについて判定可;文法的には問題ないが主要な格要素、修飾語句の大部分が抜けているなど意味をなさない文となっていないかどうか」
●忠実性=「了解性がOKのものについてのみ判定可;意味が通る文になっていても、原文とは違う解釈の余地が生じていないか」                  
●十分性=「忠実性がOKのものについてのみ判定可;残存部分が原文と同じ意味解釈の内容であっても、原文に含まれていた別の命題内容(重文の場合など)や、主題・陳述内容が欠落していないかどうか」
●非冗長性=「了解性がOKのものについてのみ判定可;残存部分内部でどの程度冗長な記述があるか」
  可読性および了解性は、要約文章(あるいは原文)単独で評価可能な尺度である。忠実性および十分性は、原文と要約文章との比較において初めて評価可能な尺度。非冗長性は、要約文章単独でも評価可能ではあるが、指定された要約率や、原文に内在する冗長性との比較において、相対的に冗長性を評価することに意味がある、と考えられる。Sunnyorrain_3<引用終わり>

  上記の5つの基準は概念的には妥当に成立しますが、定量評価に持ち込むのはなかなか難しいです。次回以降どこかで、正解が仮に一意に定義できたとして、それと比較して数値評価、自動評価が可能となる「適合率」「再現率」(情報検索の評価と同じです)に触れます。

 その前に、他のITのタスクではなかなか登場しない評価尺度「忠実性」をとって、それが損なわれている例をみてみましょう。

■原文: 
「今日は外は朝からとても気持ちの良い快晴の天気だ。でも、予報では午後は雨天の確率80%と言っていた。だから、悪い天気に備えて、傘をもって外にでかけよう。」

上記を入力として、tf*idf法(後日解説します)による重要フレーズ認定の手法で文の重要度をランキングすると、3文の中では、第1文と第3文が重要、と判定されます。第3文には動詞が2つあり、従属節があるのでそこをスキップすると、全体で半分くらいの文字数となります。

■要約結果: 
「今日は外は朝からとても気持ちの良い快晴の天気だ。だから、・・・傘をもって外にでかけよう。」

 いったいこの非論理的、支離滅裂な文は何でしょうか?
原文の意味を忠実に伝えているかといえば、否。すなわち、「忠実性」は大きく損なわれています。
 文法、言語運用理論の言葉を使うと、因果関係を表す接続詞「だから」の参照先を削除してしまったために、違った参照先に結びつけられ、原文と著しく異なった因果関係を意味する、違う意味の文章になってしまった、と説明することができます。

 この結果をまとめて比喩的に表現すると、「文章はつながり(結束性)をもっていて、下手な所で切ったら "血が出る"。」 「そこで、文章の一部をそぎ落とす作業の際には誤解を生じないように様々な配慮、操作が必要」ということになります。なかなかここまで配慮したサマライザはどの言語を見渡しても存在しないように見えます。CBサマライザ以外は。



Comment(0)