ソフトウェア/データSoftware/Data

ヤフーでは、情報科学、社会科学、学際領域など多岐にわたる分野において、
大学、公的研究機関の研究者に広く利用していただくために一部ソフトウエアとデータを公開しています。

ソフトウェア

NGT - Neighborhood Graph and Tree for Indexing

仕様と詳細
大量の高次元ベクトルデータからクエリとして指定されたベクトルデータの近傍に存在するデータを高速に検索するソフトウェアです。

big3store - 分散RDFストレージマネジャ

仕様と詳細
大規模知識データを本格的に利用するための分散RDFストレージマネジャのプロトタイプシステムです。

AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-Label Classification

仕様と詳細
ラベルの種類数が膨大な場合(10^4 - 10^6)のマルチラベル分類問題に対し、高速かつ精度良く予測を行う分類器の実装です。

データ

Yahoo!知恵袋データ(第2版)

仕様

Yahoo!知恵袋は知恵共有のサービスで、参加者がお互いに知恵や知識をQ&Aやノートで共有できます。本データは、ヤフー株式会社が下記の期間にYahoo!知恵袋のデータベースから抽出した解決済みの質問と回答です。

期間:2004年4月-2009年4月

質問数:約1600万

回答数:約5000万

公開方法
国立情報学研究所(NII)(外部サイト)のホームページからのダウンロードの形式で公開してます。 利用に関する詳細、お申し込みは国立情報学研究所(NII)の「Yahoo! 知恵袋データ(第2版)」利用手続きのページ(外部サイト)をご確認ください。

Yahoo!検索の検索クエリデータ

仕様

本データは以下の期間に「Yahoo!検索」で検索された全クエリ(ユーザーが検索時に入力した単語やフレーズ)の中から、 NTCIR の第12サイクル(NTCIR-12)で設定された研究課題に対する関連度の高いクエリを抽出したものです。本データで使用しているのは異なる数十人以上のユーザーが検索に用いたクエリに限られ、「Yahoo!検索」ユーザー個人の操作履歴や識別子、属性といった個人情報は一切含んでいません。

期間:2009年7月-2013年6月

提供方法

情報アクセス技術の評価ワークショップ NTCIR (情報検索システム評価用テストコレクション構築プロジェクト NII Testbeds and Community for Information access Research)(外部サイト) の参加者向けに提供され、同ワークショップに参加する研究グループが無償で活用できます。

詳細は、NTCIR(外部サイト)のページをご確認ください。

※Yahoo! JAPAN 提供のデータを使用するタスクへの参加申し込みは終了しています。

YJ Captions Dataset

仕様
YJ Captions DataはMS COCOデータセット(外部サイト)をベースにした、日本語の画像キャプションデータセットです。マイクロソフトによりリリースされたMS COCOの画像に対し、新たに弊社クラウドソーシングサービスを利用して、画像の内容を説明するキャプションを日本語で付与しました。画像自体はMS COCOのサイトからまとめてダウンロード可能です。
キャプション数:約12万
公開方法