論 文Papers

CONFERENCE (DOMESTIC)

分散表現を用いたニュース記事の重複排除

大倉 俊平, 田頭 幸浩, 田島 玲

NLP2016(言語処理学会第22回年次大会 発表論文集), 2016/3

Category:

自然言語処理 (Natural Language Processing) 機械学習 (Machine Learning) データサイエンス (Data Science)

Abstract:
ウェブ上のニュース配信システムでは,ユーザーの興味に合致した情報を限られた表示面積と閲覧時間でより多く提供するために,冗長な記事を配信リストから排除することもまた重要である.例えば,ニュースの提供元が複数ある場合,同じ出来事について記述された複数の記事が同時に配信候補になることがある.この時,単純にユーザーの興味の度合いにしたがって記事をランキングすると,これらの同じ出来事について記述された記事が,配信リストの近い位置に表示されることになるが,ユーザーは似た記事を連続して目にすることになるため,満足度は低下することが予想される.そのため,重複する記事の中から一つを選択し,似た記事を排除するというアプローチが有効だと考えられる.本稿では,上記の問題に対して,記事のbag-of-words表現から生成された分散表現を用いて記事の重複排除を行うアプローチを提案する.まず,記事間の類似度を,対応する二つのベクトルの内積の値で表現できるように,記事のカテゴリを弱い教師シグナルとして用いた学習を行うことで,低次元の分散表現を生成する.そして,生成された分散表現の内積の値で記事間の類似度を判定することで,配信リスト内から重複排除を行う.本稿では,Yahoo! JAPANの実システムに提案手法を適用し,オンライン環境で行った実験結果についても紹介する.
Download:

分散表現を用いたニュース記事の重複排除(PDF 547KB)