論 文Papers

CONFERENCE (DOMESTIC)

分散表現を用いたヤフー知恵袋の要約

野口 正樹, 谷塚 太一, 小林 隼人

言語処理学会第21回年次大会(NLP2015), 2015/3

Category:

自然言語処理 (Natural Language Processing) 機械学習 (Machine Learning)

Abstract:
スマートフォンをはじめとするモバイル端末の所有 率が増えるにつれ,スマートフォンを前提としたイン ターネットサービスを展開する必要が出てきた.新聞 記事やコラムをはじめとするニュースサイト以外にも Q&A サイトや掲示板,SNS の投稿をまとめた “まと めサイト” などユーザジェネレートコンテンツ (User Generated Contents: UGC) を利用したサイトもス マートフォンから利用されるようになってきている. スマートフォンの場合には転送速度や表示領域の制約 があるため,要点をまとめた短い文章でコンテンツを 表す要約技術を用いたサービスの展開などを考える必 要がある. しかし,これまでの要約技術に関する評価において は新聞記事のようなある程度書式が統一されている データに関する実験は多く行われているが,UGC の ように自由に記述できるデータに対して要約技術を適 用したものは少ない.そこで,本論文では UGC サイ トであるヤフー知恵袋に対して要約技術を適用し その効果を確認する. 本論文では重要文抽出による要約に取り組み,既存 の手法に加え,単語の分散表現を使った手法を提案す る.単語の分散表現は意味的な近さや関係性を表現で きることで最近注目を浴びており,単語だけでな くフレーズや文を固定長のベクトルで表現する取り 組みが行われている.重要文抽出において分散表 現を利用した研究は,Kageback らの研究がある が,英語の評価用データを対象として実験を行ってい る.本論文では,日本語の UGC を対象としている点 で Kageback らとは異なっている. また,評価にはクラウドソーシングを用いた.クラ ウドソーシングでは一般のユーザによる定性評価をア ンケート形式で手軽に収集することができる.クラウ ドソーシングを利用するメリットとして,専門家によ る評価ではなく一般のユーザの評価を得ることができ ることが挙げられる.
Download:

分散表現を用いたヤフー知恵袋の要約(PDF 212KB)