Data science online courses


На данной странице я буду собирать наиболее интересные онлайн-курсы по теме Data Science. Стоит отметить, что некоторые курсы уже закончились, но у большинства таких курсов можно посмотреть архив всех учебных материалов.


Statistics

В начале представлены курсы, которые посвящены теории вероятностей и статистике. В некоторых случаях разделение курсов на категории достаточно условно, так как многие курсы охватывают различные аспекты, связанные с анализом данных. Далее представлен список курсов в данной категории:

  • Introduction to Computational Finance and Financial Econometrics (Coursera - University of Washington) - онлайн-курс, который будет полезен тем, кому интересна статистика и язык программирования R, а также тому, кому интересно применение статистических методов в финансовой сфере.
  • KIexploRx Explore Statistics with R (edX - KIx) - курс будет в первую очередь интересен тем, кто хочет ознакомиться с языком программирования R и его практическим применением. Курс достаточно небольшой и рассчитан на 5 недель обучения.
  • Probabilty and Statistics (Khan Academy) - отличный набор базовых вещей по статистике и теории вероятностей от Khan Academy.
  • Case-Based Introduction to Biostatistics (Coursera - Johns Hopkins University) - курс прдеставляет в доступной форме основы статистики и теории вероятностей с примерами из биостатистики.
  • Probabilistic Graphical Models (Coursera - Stanford University) - небольшой курс по теории вероятностей.
  • Statistics: Making Sense of Data (Coursera - University of Toronto) - еще один курс по основам статистики.
  • Data Analysis and Statistical Inference (Coursera - Duke University) - отличный курс по анализу данных, в котором доступно рассказывается об основах теории вероятностей и статистики.
  • Statistics One (Coursera - Princeton University) - неплохой курс по основам статистики. Материал подается на доступном уровне и не требует от слушателя специальных знаний для усвоения материала.
  • Statistics in Medicine (Stanford Online) - основы статистики на основе примеров из медицины.
  • Statistics for Medical Professionals (CME) (Stanford Online) - основы статистики на основе примеров из медицины.
  • Stat_2.1x - Introduction to Statistics: Descriptive Statistics (edX - BerkleyX) - первая часть из серии курсов по статистике и теории вероятностей. Первая часть посвящена описательной статистике.
  • Stat_2.2x - Introduction to Statistics: Probability (edX - BerkleyX) - вторая часть из серии курсов по статистике и теории вероятностей. Вторая часть посвящена основам теории вероятностей.
  • Stat_2.3x - Introduction to Statistics: Inference (edX - BerkleyX) - третья часть из серии курсов по статистике и теории вероятностей. Третья часть посвящена теме статистического вывода.
  • 6.041x Introduction to Probability - The Science of Uncertainty (edX - MITx) - курс по теории вероятностей от MIT.
  • Intro to Statistics (Udacity) - еще один курс по основам статистики.
  • Statistics (Udacity) - достаточно простой курс по теории вероятностей и статистике.


Data analysis and machine learning

Далее следует список курсов, которые посвящены различным аспектам темы анализа данных, таким как машинное обучение, обработка естественного языка, нейронным сетям, рекомендательным системам, анализу социальных сетей, искусственному интеллекту и другим:

  • Видеолекции с курса "Машинное обучение" (ШАД) - курс "Машинное обучение" является одним из основных курсов Школы, поэтому он является обязательным для всех студентов ШАД.
  • Mining Massive Datasets (Coursera - Stanford University) - позиционируется курс на обучение работы с большими объемами данных и применения к ним различных алгоритмов. Основной упор делается на техники, которые работают наиболее эффективно и хорошо масштабируются.
  • Видеолекции с курса "Big Data, Large Scale Machine Learning" - полезный набор видеолеций по машинному обучению. Курс проходил в 2013 году и продлился 14 недель, основными инструкторами на нем были Yann LeCun и John Langford.
  • Data Analysis (Coursera - Johns Hopkins University) - курс по анализу данных с использованием языка R длительностью 8 недель.
  • Introduction to Data Science (Coursera - University of Washington) - курс длится 8 недель. Один из наиболее популярных онлайн-курсов по основам Data Science.
  • Machine Learning (Coursera - University of Washington) - отличный курс, который длится 10 недель по машинному обучению от University of Washington.
  • Machine Learning (Coursera - Stanford University) - один из наиболее известных курсов по Machine Learning, ведет его профессор Стэнфордского Университета Andrew Ng. Курс длится 10 недель. Курс достаточно простой и понятный, не требует каких-то специальных знаний для его успешного прохождения, при этом охватывает достаточно много направлений Machine Learning.
  • Natural Language Processing (Coursera - Stanford University) - один из самых популярных онлайн-курсов по обработке естественного языка от Стэнфордского Университета.
  • Introduction to Recommender Systems (Coursera - University of Minnesota) - введение в рекомендательные системы. Нельзя сказать, что курс тщательно проработан, но курсов по данной не так много, так что он может быть интересен тем, кто занимается тематикой рекомендательных систем.
  • Neural Networks for Machine Learning (Coursera - University of Toronto) - курс по применению нейронных сетей в машинном обучении.
  • Natural Language Processing (Coursera - Columbia University) - еще один курс, посвященный теме обработки естественного языка.
  • Social Network Analysis (Coursera - University of Michigan) - курс посвящен популярной теме анализа данных социальных сетей.
  • Statistical Learning (Stanford Online) - курс, посвященный основам обучения с учителем (Supervised learning) в машинном обучении.
  • SABR101x Sabremetrics: Introduction to Baseball Analytics (edX - BUx-Boston University) - в курсе объясняются многие аспекты Data Science и Big Data на основе анализа спортивной статистики (в данном случае бейсбола).
  • PH525x Data Analysis for Genomics (edX - HarvardX) - достаточно простой курс по теме анализа данных.
  • 15.071x The Analytics Edge (edX - MITx) - курс с отличным материалом по теме анализа данных и машинному обучению.
  • Learning From Data (edX - CaltechX) - один из лучших курсов по машинному обучению. Доступно раскрываются многие темы машинного обучения. Сайт с материалами курса, которые доступны даже тогда, когда курс не идет на edX - Learning From Data.
  • CS188.1x Artificial Intelligence (edX - BerkleyX) - наверное один из самых интересных онлайн-курсов по теме искусственного интеллекта. В курсе используется язык программирования Python.
  • Intro to Data Science (Udacity) - введение в Data Science от Udacity.
  • Machine Learning 1—Supervised Learning (Udacity) - первая часть из серии курсов по машинному обучению от Udacity. Первая часть посвящена теме обучения с учителем (Supervised learning).
  • Machine Learning 2—Unsupervised Learning (Udacity) - вторая часть из серии курсов по машинному обучению от Udacity. Вторая часть посвящена теме обучения без учителя (Unsupervised learning).
  • Machine Learning 3—Reinforcement Learning (Udacity) - третья часть из серии курсов по машинному обучению от Udacity. Третья часть посвящена популярной методике машинного обучения Reinforcement Learning.
  • Exploratory Data Analysis (Udacity) - курс по визуализации данных с использованием языка R.
  • Artificial Intelligence for Robotics (Udacity) - введение в тему программирования искусственного интеллекта на примере беспилотного автомобиля.
  • Intro to Artificial Intelligence (Udacity) - курс по основам искусственного интеллекта.
  • CS109 Data Science (Harvard) - видеолекции курса по основам Data Science от Harvard Extension School


Data Science Specialization (Johns Hopkins University)

Набор курсов от Johns Hopkins University на Coursera, которые объединены в одной специализации "Data Science Specialization", поэтому имеет смысл рассмотреть их отдельно от остальных курсов. Это 9 официальных курсов специализации и два дополнительных Mathematical Biostatistics Boot Camp 1 и 2, которые официально не входят в специализацию. Важно отметить, что весь набор данных курсов регулярно начинается заново и в общем-то можно достаточно гибко построить свой график продвижения по специализации. Большинство курсов длятся 4 недели. Язык R является основным языком программирования в данном наборе курсов. Далее идет список курсов из специализации Data Science от Johns Hopkins University:

  • The Data Scientist’s Toolbox - базовый курс в специализации и посвящен обзору различных инструментов специалиста по анализу данных. Количество материалов невелико и курс может быть пройден за 3-4 часа.
  • R Programming - базовый курс в специализации и посвящен основам работы с язык программирования R.
  • Getting and Cleaning Data - также является базовым курсом в специализации и посвящен очень важной теме подготовки и обработки сырых входных данных к дальнейшему анализу.
  • Exploratory Data Analysis - курс посвящен исследовательскому анализу данных и визуализации данных с помощью языка R и таких популярных пакетов для визуализации как lattice и ggplot2.
  • Reproducible Research - курс рассказывает о такой важной теме в анализе данных как Reproducible Research. Рассматриваются пакет knitlr для языка R, а также язык разметки R Markdown.
  • Statistical Inference - формально курс посвящен теме статистического вывода, но по сути является курсом по основам статистики и теории вероятностей. Подано все в очень скомканной и сумбурной форме. Один из самых неоднозначных курсов в данной специализации. Надеюсь, что в будущих версиях курс будет серьезно переработан.
  • Regression Models - курс посвящен теме регрессионного анализа. К курсу также есть вопросы по теме проработанности материала и надежда, что создатели курса обратят внимание на комментарии студентов и серьезно переработают курс в будущем.
  • Practical Machine Learning - курс посвящен основам машинного обучения.
  • Developing Data Products - курс посвящен разработке современных продуктов в теме анализа данных. Рассматриваются такие популярные фреймворки как Shiny и Slidify.
  • Mathematical Biostatistics Boot Camp 1 - первая часть курса по биостатистике от Johns Hopkins University, является неофициальным дополнением к специализации Data Science, хорошо покрывает основы статистики и теории вероятностей.
  • Mathematical Biostatistics Boot Camp 2 - вторая часть курса по биостатистике от Johns Hopkins University, является неофициальным дополнением к специализации Data Science, хорошо покрывает основы статистики и теории вероятностей.


Data Engineering

  • Intro to Hadoop and MapReduce (Udacity) - курс посвящен основам работы с Hadoop и большими наборами данных.
  • Data Wrangling with MongoDB (Udacity) - речь в данном курсе пойдет о работе с данными в такой популярной сейчас NoSQL базе данных как MongoDB.
  • Programming Foundations with Python (Udacity) - курс посвящен основам языка программирования Python, который стремительно набирает популярность среди специалистов по анализу данных.
  • Introduction to Databases (Coursera - Stanford University) - курс рассказывает о работе с реляционными источниками данных, а также о работе с другими популярными форматами хранения данных (XML, JSON)

1 comment:

  1. Здравствуйте! А про курс "Data Analysis and Interpretation Specialization" на Courcera что-нибудь можете сказать?
    И в целом, если можно, совет какие курсы пройти: знаю основы биостатистики, для работы нужно освоить анализ данных клинических исследований в SAS.

    ReplyDelete