Проектирование и автоматизация обработки данных для Machine Learning (Python/Talend|Hadoop)

Информация о курсе:


Стоимость: 4 000 грн в месяц

Длительность курса: 2 месяца (45 часов)
Вечерние группы: 18 занятий х 2,5 часа
Субботние группы: 10 занятий х 4,5 часа
Возможно обучение On-line

Дата начала курса:


28 августа 18:45-21:15
(понедельник, среда)
30 сентября 10:00-14:30
(занятия проходят по субботам)

Записаться в группу
 

 

Курс построен на реальных данных (а не на учебных эталонных примерах).

Подготовка проектного окружения

  • Система контроля версий GitHub
  • Пакет для разработки на Python Anaconda

Основы Machine Learning

  • Цели и задачи
  • Жизненный цикл
  • Математический аппарат

Загрузка, обработка и подготовка данных (ETL/ Data Wrangling )

  • Загрузка данных. Форматы данных: csv/xls/html/sql
  • Пропущенные данные, дублирование, преобразование
  • Работа с публичными данными (банки данных – свободно распространяемые и платные)
  • Проблемы преобразования кодировок

Автоматизация работы с распределенными данными

  • Talend Open Studio (ESB, Data Integration, Big Data)
  • Создание и настройка сбора и обновления данных
  • Распределенные вычисления: Hadoop и аналоги

Визуализация и типы анализа данных

  • Однофакторный анализ: гистограмма, «коробка с усами», частотная
  • Многофакторный анализ: точечная, рассеяния
  • Корреляция и ее применения: матричная диаграмма
  • Многомерные представления: параллельные координаты, кривые Эндрю

Модели

  • Кластеризация
  • Метод k-средних
  • Нейронные сети
  • Регрессия
  • Метод опорных векторов
  • Деревья решений
  • Случайный лес
  • Кросс-валидация