-
Webサイト行動履歴データ
Webサービス(人材・旅行・不動産・アパレル)サイト内のユーザー行動データ -
DS.INSIGHT
・ビッグデータを活用した、データサイエンスの授業利用 ・アンケートの代替として、社会関心の調査などの分析把握への利用 ・人流データによる移動状況からの各種分野分析(観光、災害、経済、交通など) -
Yahoo!知恵袋データセット
「Yahoo!知恵袋」の解決済みとなった質問と回答(期間:2004年4月-2009年4月 質問数:約1600万 回答数:約5000万)を、国立情報学研究所がヤフー株式会社から提供を受けて研究者に提供。 (申込み必要) データ利用時のライセンスについては、データ提供元のライセンスに従って下さい。 -
全産業活動指数 時系列データ
全産業活動指数は全産業の生産活動状況を供給面から捉えることを目的とするデータ。(DATA.GO.JPの経産省提供データより選定) -
MNIST
0から9までの手書きで書かれた数字の画像データ。28×28ピクセルのグレースケールの画像で、60000枚のトレーニング画像と10000枚のテスト用画像。 -
CIFAR-10
飛行機,車,鳥,猫,鹿,犬,蛙,馬,船,トラックの10種類のカテゴリに分類された32×32ピクセルのカラー画像データ。カテゴリごとに6000枚,合計60000枚(トレーニング用に50000枚,テスト用に10000枚)。 -
STL-10 dataset
飛行機,車,鳥,猫,鹿,犬,蛙,馬,船,トラックの10種類のカテゴリに分類された96×96ピクセルのカラー画像データ.カテゴリごとにトレーニング画像500枚,テスト画像800枚.また,100000枚のラベルのない画像データ(10種のカテゴリに属さないものも有)も含む. -
UME-JRF
留学生による読み上げ日本語音声データベース(WAV: 16kHz・16bit・Mono). (申込みが必要) -
UME-ERJ
日本人学生による読み上げ英語音声データベース(WAV: 16kHz・16bit・Mono).( (申込みが必要) -
livedoor ニュースコーパス(無料)
9 カテゴリのニュース記事,CC BY-ND 日本語の雑多なニュースからCCライセンスの記事のみを取り出し、HTMLタグなどを自動的に取り除いて文章のみとしたもの。テキストの他、Apache Solr向けのデータも提供されている。Apache