Основы Data Science, язык R, Hadoop стек

Информация о курсе:


Стоимость: 4 000 грн в месяц

Длительность курса: 3 месяца (67,5 часов)
Вечерние группы: 27 занятий х 2,5 часа
Субботние группы: 15 занятий х 4,5 часа
Возможно обучение On-line

Дата начала курса:



2 июня 10:00-14:30
 
(занятия проходят по субботам)

Записаться в группу

 

Курс Науки о данных (Data Science) предназначен для систематизации работы с данными различного характера.

Практические знания Data Science, полученные с помощью данного курса, позволят:

  • анализировать и структурировать образцы поведения,
  • выявлять закономерности и отклонения от них,
  • строить неочевидные взаимосвязи между данными.

Особо будет рассмотрен случай влияния нескольких факторов в совокупности для построения надежных моделей прогнозирования поведения.

Методы Машинного обучения, рассмотренные в рамках этого курса, дадут возможность:

  • автоматизировать распознавание образцов поведения,
  • строить эффективные алгоритмы в зависимости от требуемых характеристик,
  • обрабатывать массивы информации и выдавать рекомендации за приемлемое время с заданной точностью.

Среди источников информации будут также рассмотрены реляционные и не реляционные СУБД, текстовые файлы, гипертекстовые документы, социальные сети.

Особенностью курса является максимально эффективная визуализация статистических выводов для эффективного принятия решений. По итогам курса каждый слушатель предоставит отчет о финальном проекте с помощью средств визуализации.

 

Математический аппарат Data Science. Основы теории вероятностей и математической статистики. Статистические оценки. Законы распределения. Регрессия. Корреляция. И другое.

Обзор инструментария анализа данных. Обзор математических пакетов и языков. Язык R: Особенности сборок, IDE. Установка учебной среды.

R-Studio. Интерфейс пользователя. Окна. Горячие клавиши. Отладка. Организация рабочего пространства. Консоль.

Язык R:

  • Основы. Базовые операции и функции. Система помощи. Учебные наборы. Переменные и наборы наблюдений. Создание произвольных наборов.
  • Описательный анализ. Фильтрация. Подмножества. Загрузка из файла. Система сопроводительной документации R Markdown. Установка дополнительных пакетов.
  • Основные алгоритмические элементы языка. Форматы команд. Условные ветвления. Циклы. Функции.
  • Типы данных. Вектор. Матрица. Списки. Data Frame. Особенности работы с ними.
  • Базовые пакеты. Изучение функционала базовых пакетов.

Основы Data Science:

  • Анализ переменных факторного типа. Уровни факторов. Сортировка меток. Графический вывод. Возможные варианты представления данных.
  • Анализ выборки 1й переменной. Визуализация. Диаграммы рассеяния, гистограммы, частотные диаграммы, «коробки с усами». Масштабирование, изменение размерности, нелинейные шкалы. Описательный анализ. Преобразование данных.
  • Анализ выборки 2-х переменных. Визуализация. Условное мат. ожидание. Знание предметной области. Корреляция. Шум. Сглаживание. Тренды.
  • Многомерный анализ. Сложности многомерного анализа Отношения. Тепловые карты. Типичный диапазон. Сглаживание.
  • Регрессия и прогноз. Линейная и нелинейная регрессия. Проблемы линейной регрессии. Прогноз. Предсказывающая аналитика. Сравнение моделей.
  • Методы заполнения пропусков данных и нормализации.
  • Text Mining. Особенности анализа неструктурированной текстовой информации. Построение выводов.
  • Анализ пространственных данных. Особенности анализа и визуализации пространственных данных. Построение карт.

Основы Machine Learning:

  • Методы классификации.
  • Методы кластеризации. Методы типа к-средних, иерархические методы.
  • Методы факторного анализа. Методы уменьшения размерности данных.
  • Методы принятия решений. Деревья, леса.
  • Нейронные сети.
  • Адекватность моделей. Выбор эффективной модели.

Технологии работы с большими и распределенными данными: Обзор технологий Hadoop и др. Пакеты в R. (Глубина изучения опциональна в зависимости от скорости освоения материала группой)

Финальный проект.