論 文Papers

CONFERENCE (DOMESTIC)

Web検索クエリに対する教師なしエンティティリンキング手法

齋藤智輝、豊田樹生、夜久真也、岩澤宏希

言語処理学会第24回年次大会(NLP2018), 2018/3

Category:

自然言語処理 (Natural Language Processing) 情報検索 (Information Retrieval) データサイエンス (Data Science)

Abstract:
近年, 商用検索エンジンの進化によってユーザが検索結果に求める情報は高度化している. 例えば, 検索結果に表示されるリンクを辿り目的のウェブページに遷移する前に, ユーザの意図するエンティティ(実存する概念) を解釈し, そのエンティティの構造化された情報を表示することでユーザの満足度を満たすことが知られている. そこで, ユーザの満足度を満たすために, 入力されたクエリに対してエンティティリンキングタスクを解き, エンティティパネルに表示するエンティティを特定する必要がある. しかし, ウェブページやニュース記事内でのエンティティリンキングタスクとは異なり,ウェブ検索クエリは文としては短い. さらに, エンティティリンキングを行う際に対象となる固有表現が多義語である場合, 多義語に対する候補の中で, どのエンティティが最もその固有表現に結びつくべきなのかというエンティティの曖昧性を解消する必要がある. 本研究では, 日本語を含むクエリに対するエンティティリンキングタスクについて考える. その中でも特に多義クエリに対する曖昧性解消問題について取り組む. 具体的には, Wikipedia 内のアンカーテキスト情報及びウェブ検索ログから「あるクエリがどのエンティティの意図として入力されやすいか」という統計量を算出し, 2 つの統計量から混合モデルを構築することで多義クエリの曖昧性を解消する. また, Wikipediaの記事本文及びBM25 を用いて曖昧性を解消する手法をベースラインとし, 混合モデルによる提案手法を商用検索エンジンに実際に入力されたクエリを用いて評価・比較することで, 提案する手法の優位性を示す.
Download:

Web検索クエリに対する教師なしエンティティリンキング手法(外部サイト/External Site Link)