Основы Data Science, язык R, Hadoop стек

Информация о курсе:


Стоимость: 4 000 грн в месяц

Длительность курса: 3 месяца (67,5 часов)
Вечерние группы: 27 занятий х 2,5 часа
Субботние группы: 15 занятий х 4,5 часа
Возможно обучение On-line

Дата начала курса:



30 сентября 10:00-14:30

(занятия проходят по субботам)

Записаться в группу

 

 

Математический аппарат Data Science. Множества. Основы теории вероятностей. Формула Байеса. Нормальность выборки. Медиана. Мат. ожидание. Корреляция. Шум. Линейная регрессия.

Обзор инструментария анализа данных. Hadoop: Особенности поставок, архитектура. Язык R: Особенности сборок, IDE. Установка учебной среды.

R-Studio. Интерфейс пользователя. Окна. Горячие клавиши. Отладка. Организация рабочего пространства. Консоль.

Язык R:

  • Основы. Базовые операции и функции. Система помощи. Учебные наборы. Переменные и наборы наблюдений. Создание произвольных наборов. Практика.
  • Описательный анализ. Фильтрация. Подмножества. Загрузка из файла. Система сопроводительной документации R Markdown. Установка дополнительных пакетов. Практические примеры.
  • Факторный анализ. Уровни факторов. Сортировка меток. Графический вывод. Возможные варианты представления данных. Практические примеры.
  • Анализ выборки 1й переменной. Визуализация. Диаграммы рассеяния, гистограммы, частотные диаграммы, «коробки с усами». Масштабирование, изменение размерности, нелинейные шкалы. Описательный анализ. Преобразование данных. Практические примеры.
  • Анализ выборки 2-х переменных. Визуализация. Условное мат. ожидание. Знание предметной области. Корреляция. Шум. Сглаживание. Тренды. Практические примеры.
  • Многомерный анализ. Сложности многомерного анализа Отношения. Тепловые карты. Типичный диапазон. Сглаживание. Практические примеры.
  • Регрессия и прогноз. Линейная и логрегрессия регрессия. Проблемы линейной регрессии. Прогноз. Предсказывающая аналитика. Сравнение моделей. Практические примеры
  • Финальный проект. Определение стратегии реализации. Визуальное оформление. Критерии успешности проекта.

Apache Hadoop фреймворк:

  • Обзор стека. История возникновения. Ключевые компоненты: HDFS, YARN MapReduce.
  • Классификация компонент верхнего уровня. Sqoop, HBase, Pig, Hive, Oozie, Zookeeper, Flume, Spark
  • Работа с HDFS и YARN. HDFS 2.0. MapReduce фреймворк. Среда выполнения. Планировщик ресурсов. Performance Envelop. Процессы чтения/записи. Тонкая настройка HDFS. Производительность и надежность. Команды, API (Java-нативный, REST), доступ.
  • Практика по MapReduce.
  • Приложения Hadoop. Pig, Hive, HBase. Обработка ошибок соединения.
  • Работа со Spark. Архитектура. PySpark. Распределенные наборы и трансформации. Планировщик заданий. Действия. Кеширование. Переменные.
  • Практика по Spark.
  • NoSQL база данных HBase. Архитектура. API. Создание приложения. Жизненный цикл HBase приложения.
  • Практика по HBase.

Работа с Hadoop из R. Обзор вариантов. Практическая работа.