論 文Papers

CONFERENCE (DOMESTIC)

CQAコンテンツからの類似する悩みの発見

橋口 友哉 (兵庫県立大), 山本 岳洋 (兵庫県立大), 藤田 澄男, 大島 裕明(兵庫県立大)

第12回データ工学と情報マネジメントに関するフォーラム (DEIM 2020), 2020/3

Category:

自然言語処理 (Natural Language Processing) 情報検索 (Information Retrieval)

Abstract:
本研究では,類似する悩みを表した文を発見するための,類似文検索に取り組む.本研究では,悩みを含 む与えられた文に対して,その悩みを引き起こす状況に着目し,類似文を発見する.具体的には,「主人は育児に非協 力的で、自分は働いているのだから、家の仕事は私がしろというタイプで、私一人に家事と子育てを任せてくる。」と いう文と,「旦那は仕事が忙しく、家にあまりいない状況の中、最近は「仕事しないで家にいるんだから子育てくらい まともにしろよ。」と言われました。」という文ペアは状況が類似しているため,同じ悩みを表す類似文として考えられ る.類似文検索のためのモデルを構築するため,まず,クラウドソーシングを用い,コミュニティ型質問応答(CQA) コーパスから抽出した文と類似する文をCQA コーパスから人手で抽出する.次に,得られたデータを用いてBERT のファインチューニングを行い,類似文の検索モデルを構築する.得られたモデルの有効性を検証するため,与えら れた文と悩みが類似する文をどの程度の精度で検索できるかを,TF-IDF,Okapi BM25,事前学習のみのBERT と いった手法と比較する.
Download:

CQAコンテンツからの類似する悩みの発見(外部サイト/External Site Link)