オルタナティブ・ブログ > 森崎修司の「どうやってはかるの?」 >

計測できそうでできない多くのこと。エンピリカル(実証的)アプローチで。

Yahoo!知恵袋の過去の質問、回答データ1350万件から良い回答をはかった

»

研究機関むけに提供しているデータを使い、私たちの研究グループでも分析を実施した。対象は国立情報学研究所が提供しているYahoo!知恵袋の質問と回答のデータだ。(詳細はこちら: 国立情報学研究所のWeb)。私たちの研究グループでは回答の信頼性分析をしており、その結果を6/6の情報社会学会 2009年度年次研究発表大会で瀧寛文氏が発表した。本ブログのいつものソフトウェア開発に関するエントリとは少し異なるが、実際のデータを使った実証的(エンピリカル)な研究テーマとして紹介したい。

質問と回答のデータやブログのデータなど、一般には自然言語処理による解析や統計のために用いられることが多いと思うが(奈良先端科学技術大学院大学は自然言語処理でも有名だが)、私たちの研究グループ(瀧、大平、松本、森崎)では、自然言語解析を用いない方法でも回答の良しあしを評価することを目指した。

Yahoo!知恵袋は質問者がWeb上で質問をし、その質問の回答を持っていると自身で判断した回答者が回答する。質問者が回答を締め切るか、一定期間が過ぎると回答できなくなる。質問者、回答者以外でも参照はいつでもできる。回答が必ずしも正しいとは限らない、必ずしも回答が得られるとは限らない。典型的なCGMといえるのではないだろうか。回答、質問にはアカウントが必要になり、過去の回答実績やよい回答をすることでポイントを得られるインセンティブを与える等して、質問、回答が活発にするための工夫が施されている。

前置きが長くなったが、Yahoo!知恵袋の約1年間の回答データ1350万件の回答を調べると、回答にURLが書いてあるとベストアンサーに選ばれる割合が約2.5倍だった。つまり、回答を知らない質問者はURLから得られる裏付け情報を調べることによって、最良回答を選んでいる場合があることを示しているといえそうだ。この他、3つの仮説をたててエンピリカル(実証的)に検証している。詳細は、論文「瀧寛文,森崎修司,大平雅雄,松本健一,Q&Aコミュニティを対象とした回答の信頼性指標構築に向けた分析、情報社会学会誌 Vol. 4, No. 1, pp49-58」を参照いただきたい。

論文には書いていないが、Q&Aに寄せられる質問には、正解が1つに決まるものとそうでないものがある。たとえば、有名人の誕生日を問う質問に対する正解は1つに決まる。一方「好きな人がいるが告白してよいか?」「おもしろい映画は何か?」のように、正解がなかったり1つに決まらない質問もある。そのような質問では、質問者の気持を代弁したり同情するような回答がベストアンサーに選ばれている傾向があった(あくまで研究グループ内でのディスカッションの中での感覚的なものであり、統計的裏付けはとれていない)。たとえば「・・・・のような状況で最悪の会社に勤めている。どうすればよいか?」という質問に対して「・・・・のことがわかっていて就職したんだからガマンしなさい」や「・・・・はひどすぎるので法的手段を講じなさい」というような回答がされるが、最良回答に選ばれるのは「・・・・だなんてひどい会社ですね。かわいそうになってきました。」というような回答が多かった。

Comment(0)