論 文Papers

CONFERENCE (DOMESTIC)

dishPAM: A Distributable Seeded Pachinko Allocation Model

豊田 樹生, 土沢 誉太, 築地 毅, 菅原 晃平, 野口 正樹

言語処理学会第26回年次大会 (NLP2020), 2020/3

Category:

自然言語処理 (Natural Language Processing) 情報検索 (Information Retrieval) 機械学習 (Machine Learning) データサイエンス (Data Science)

Abstract:
トピックモデリングとタクソノミーの統合に関する研究は近年盛んに取り組まれている [1, 3, 9].しかし,文書数が巨大な場合やウェブ検索クエリに対するエンティティリンキングのような応用タスクに重点を置いたモデリング及び実用上での評価はまだ十分に行われているとは言い難い.そこで,本研究では hPAM Model 2[8] の派生的なモデルである Distributable Seeded Hierarchical Pachinko Allocation Model(dishPAM) を提案し,次のような貢献を行う: (i) メトロポリスヘイスティングス法 [7] による最適化ができることを示す.またタクソノミーを用いた教師なし学習によるシード単語 [5] の生成方法を提案し,これを利用したトピック初期化を行う. (ii) 文書数 (i.e., エンティティ数1) が巨大でも対応できるよう,分散処理フレームワークApache Spark上で実装を行った. (iii) 学習速度,単語予測性能,クラスタリングの安定性の観点から既存手法と比較を行い,高い性能を示したことを報告する. (iv) 応用タスクとしてウェブ検索クエリに対するエンティティリンキングに取り組み,既存手法と比べ高い適合率を示したことを報告する.
Download:

dishPAM: A Distributable Seeded Pachinko Allocation Model(外部サイト/External Site Link)