「文選択」型サマライザの致命的欠点
»
前回、「正解がきちんと決まっていれば」自動的に評価できる、適合率と再現率のお話を書きました。 「意見優先」vs「事実優先」の要約コントロール でとりあげたCB Summarizerの訳し分け、ならぬ、要約し分けという課題もありました。今日は、重要そうな文を選んで文単位でダルマ落とし、というやり方では融通が利かなくて困る、という話題を手短かにご紹介します。
だるま落としで意味不明になる事例「今日は外は朝からとても気持ちの良い快晴の天気だ。だから、・・・傘をもって外にでかけよう。」もありましたが、今回は、このような問題は無く、確かに重要そうな語句を含む文が残ったし、意味のつながりも不可解だったり正反対になったりはしないもの、といたします。
これは、実際に、多数の入力文章を試作システムに要約させてみて気がついたことです。当時(も今も)、利用しやすかったのは、著作権上の問題がない、官僚の書く行政文書や、国会議事録でした。
最近、音声入力がOSレベルで搭載されて実用化しつつあるので、お気づきの方も多いと思いますが、人間、音声でスピーチする時の方が、1文1文が長くなりがちです。どんな仕組みで重要語、重要フレーズを評価するにしても、絶対的に単語数、フレーズ数の多い1センテンスは、他のセンテンスよりも重要度の指数で高評価となりがちです。
※重要語が多いほど文の重要度を低下させるように逆に評価するのはさすがに間違いでしょう。平方根や対数をとって重要度増大効果を緩和することはあるかもしれませんが。
特に、長ったらしい、と定評のあるのが国会での大臣、議員の演説でしょうか。
実際、ある自民党大臣の所信表明演説は、ある1文が、1行40文字の折り返しで、なんと7行もありました。「私は」に始まって、「昨今の長期化する不況で苦しむ幾多の中小企業の皆様の状況を見て心を痛め、***に苦慮し、***、****、***、***」、と延々と動詞句を連用形でだらだら繋いでいってくれてます。
最後に深々と頭を下げたと思しき、7行にまたがる長大な1文を含む記事をCB Summarizerプロトタイプにかけた結果は、
「私は、・・・・・全力を尽くす所存です。(拍手)」
でした。
この事例は、評価につき合ってくれた当時の同僚達にバカ受けしました。
「確かに、この1文で言いたかったことはそれしか無いや!」
私が設計・開発した、「文短縮」可能型サマライザが、1文1文の内部はいじらずに、文単位でダルマ落としするだけの「文選択」型サマライザに決定的に勝利を収めた瞬間でした。
SpecialPR