Основы Data Science, язык R, Hadoop стек

Информация о курсе:


Стоимость: 4 000 грн в месяц

Длительность курса: 3 месяца (67,5 часов)
Вечерние группы: 27 занятий х 2,5 часа
Субботние группы: 15 занятий х 4,5 часа
Возможно обучение On-line

Дата начала курса:



3 февраля 2018 года 10:00-14:30
 
(занятия проходят по субботам)

Записаться в группу

 

Курс Науки о данных (Data Science) предназначен для систематизации работы с данными различного характера.

Практические знания Науки о данных, полученные с помощью данного курса, позволят:

  • анализировать и структурировать образцы поведения,
  • выявлять закономерности и отклонения от них,
  • строить неочевидные взаимосвязи между данными.

Особо будет рассмотрен случай влияния нескольких факторов в совокупности для построения надежных моделей прогнозирования поведения.

Методы Машинного обучения, рассмотренные в рамках этого курса, дадут возможность:

  • автоматизировать распознавание образцов поведения,
  • строить эффективные алгоритмы в зависимости от требуемых характеристик,
  • обрабатывать массивы информации и выдавать рекомендации за приемлемое время с заданной точностью.

Прикладные аспекты обработки больших массивов данных (Big Data) посредством стека технологий Apache Hadoop дадут слушателям курса масштабируемый инструментарий для работы с нереляционными базами данных. Среди источников информации будут также рассмотрены реляционные СУБД, текстовые файлы, гипертекстовые документы, социальные сети.

Особенностью курса является максимально эффективная визуализация статистических выводов для эффективного принятия решений. По итогам курса каждый слушатель предоставит отчет о финальном проекте с помощью средств визуализации.

 

Математический аппарат Data Science. Множества. Основы теории вероятностей. Формула Байеса. Нормальность выборки. Медиана. Мат. ожидание. Корреляция. Шум. Линейная регрессия.

Обзор инструментария анализа данных. Hadoop: Особенности поставок, архитектура. Язык R: Особенности сборок, IDE. Установка учебной среды.

R-Studio. Интерфейс пользователя. Окна. Горячие клавиши. Отладка. Организация рабочего пространства. Консоль.

Язык R:

  • Основы. Базовые операции и функции. Система помощи. Учебные наборы. Переменные и наборы наблюдений. Создание произвольных наборов. Практика.
  • Описательный анализ. Фильтрация. Подмножества. Загрузка из файла. Система сопроводительной документации R Markdown. Установка дополнительных пакетов. Практические примеры.
  • Факторный анализ. Уровни факторов. Сортировка меток. Графический вывод. Возможные варианты представления данных. Практические примеры.
  • Анализ выборки 1й переменной. Визуализация. Диаграммы рассеяния, гистограммы, частотные диаграммы, «коробки с усами». Масштабирование, изменение размерности, нелинейные шкалы. Описательный анализ. Преобразование данных. Практические примеры.
  • Анализ выборки 2-х переменных. Визуализация. Условное мат. ожидание. Знание предметной области. Корреляция. Шум. Сглаживание. Тренды. Практические примеры.
  • Многомерный анализ. Сложности многомерного анализа Отношения. Тепловые карты. Типичный диапазон. Сглаживание. Практические примеры.
  • Регрессия и прогноз. Линейная и логрегрессия регрессия. Проблемы линейной регрессии. Прогноз. Предсказывающая аналитика. Сравнение моделей. Практические примеры
  • Финальный проект. Определение стратегии реализации. Визуальное оформление. Критерии успешности проекта.

Apache Hadoop фреймворк:

  • Обзор стека. История возникновения. Ключевые компоненты: HDFS, YARN MapReduce.
  • Классификация компонент верхнего уровня. Sqoop, HBase, Pig, Hive, Oozie, Zookeeper, Flume, Spark
  • Работа с HDFS и YARN. HDFS 2.0. MapReduce фреймворк. Среда выполнения. Планировщик ресурсов. Performance Envelop. Процессы чтения/записи. Тонкая настройка HDFS. Производительность и надежность. Команды, API (Java-нативный, REST), доступ.
  • Практика по MapReduce.
  • Приложения Hadoop. Pig, Hive, HBase. Обработка ошибок соединения.
  • Работа со Spark. Архитектура. PySpark. Распределенные наборы и трансформации. Планировщик заданий. Действия. Кеширование. Переменные.
  • Практика по Spark.
  • NoSQL база данных HBase. Архитектура. API. Создание приложения. Жизненный цикл HBase приложения.
  • Практика по HBase.

Работа с Hadoop из R. Обзор вариантов. Практическая работа.