Data sets

  • UCI Machine Learning Repository
    Наиболее крупный и известный ресурс, на котором можно найти множество наборов данных по всевозможным категориям.
  • Stanford Large Network Dataset Collection
    Большая коллекция графовых наборов данных по различных категориям (cоциальные сети, данные от Reddit и Flickr, дорожные сети, данные различных коммуникационных сетей и множество других наборов данных).
  • WordNet
    Большая лексическая база данных английского языка.
  • ImageNet
    Большая база данных изображений, которые организованы в соответствии с иерархией базы данных WordNet.
  • Microsoft Research Dense Visual Annotation Corpus
    Набор данных от Microsoft Research, который содержит список из 500 фотографий и большим количеством описательной информации о данных изображениях. Это 4 тысячи объектов и более 100 тысяч текстовых меток.
  • Datasets for Data Mining and Data Science
    Большой список наборов данных от известного ресурса KDnuggets
  • Machine Learning Data Set Repository
    Еще один достаточно крупный ресурс, содержащий множество интересных наборов данных.
  • Kaggle
    Известный сайт, посвященный соревнованиям в области машинного обучения где можно найти множество интересных наборов данных по разным категориям.
  • Yahoo Labs Datasets
    Множество наборов данных от Yahoo Labs по разным направлениям.
  • OpenML
    Неплохая коллекция data sets для машинного обучения. Также на данном сайте можно поучаствовать с соревнованиях по машинному обучению.
  • The MNIST database of handwritten digits
    База данных рукописных цифр Национального института стандартов и технологий от известных специалистов по машинному обучению Yann LeCun (Courant Institute, NYU), Christopher J.C. Burges (Microsoft Research, Redmond) и Corinna Cortes (Google Labs, New York).
  • DMOZ - Machine learning data sets
  • Carnegie Mellon University Datasets Archive
  • 20 открытых источников данных