Publications

ワークショップ (国内) 分散環境上のグラフ構造解析を用いた非構造化データの類似度の算出

佐伯 嘉康, 田島 玲

第6回データ工学と情報マネジメントに関するフォーラム (DEIM2014)

2014.3.1

Linked Data を代表とし,異なるサービス間で管理しているデータ同士を内容に応じ結び付け,類似など の関係を算出し,互いのデータの発見・利用効率を高めようという動きがある.これらの応用には,推薦やオントロ ジーの構築がある.本稿では,そうした応用の土台となるデータ間の類似度を求める手法として,実サービスで利用 されている非構造化データから,1)それが指すエンティティと,エンティティの特徴となる要素を抜き出し,2)要 素同士を連結したグラフ構造データに変換し,3)グラフ構造データ間の非対称類似度を求める手法を提案した.検証 は,動画情報からの類似動画の発見を想定し,分散環境Hadoop で動作するグラフ処理フレームワークであるGiraph と,実サービスデータを用いて行い,データ間の類似度の算出の結果を複数評価者の目視と計算時間の計測により, 定性・定量の両面で評価を実施し,有用性を確認した.

PDF : 分散環境上のグラフ構造解析を用いた非構造化データの類似度の算出