Publications

CONFERENCE (DOMESTIC) 大規模クロールデータに対する情報抽出の観点からの分析

村上 直也、 石川 貴大、小野 真吾、塚本 浩司

第8回データ工学と情報マネジメントに関するフォーラム (DEIM2016)

February 29, 2016

Freebase や DBpediaなど,ウェブ上のデータを元に作られたデータが様々な場面で用いられるようになってきている.これらのデータは人手でメンテナンスされているが,今後構造化されたデータを自動で構築しようとした場合,ウェブ上の情報から機械的に抽出を行なう方法が有望である.しかし,ページが情報抽出元として適しているかは,ページによって大きく異なるため,情報抽出の観点からクロール戦略を立てることが必要となる.そこで我々は,汎用的にクロールした大規模ウェブデータを用いることで,情報抽出に役立つウェブデータにどのような傾向があるか分析を行った.

PDF : 大規模クロールデータに対する情報抽出の観点からの分析