論 文Papers

CONFERENCE (DOMESTIC)

大規模クロールデータに対する情報抽出の観点からの分析

村上 直也、 石川 貴大、小野 真吾、塚本 浩司

DEIM2016(第8回データ工学と情報マネジメントに関するフォーラム), 2016/3

Category:

セマンティック・ウェブ (Semantic Web)

Abstract:
Freebase や DBpediaなど,ウェブ上のデータを元に作られたデータが様々な場面で用いられるようになってきている.これらのデータは人手でメンテナンスされているが,今後構造化されたデータを自動で構築しようとした場合,ウェブ上の情報から機械的に抽出を行なう方法が有望である.しかし,ページが情報抽出元として適しているかは,ページによって大きく異なるため,情報抽出の観点からクロール戦略を立てることが必要となる.そこで我々は,汎用的にクロールした大規模ウェブデータを用いることで,情報抽出に役立つウェブデータにどのような傾向があるか分析を行った.
Download:

大規模クロールデータに対する情報抽出の観点からの分析(PDF 514KB)