Основы Data Science, язык R, Hadoop стек

Информация о курсе:
Длительность курса: 3 месяца (67,5 часов)
Вечерние группы: 27 занятий х 2,5 часа
Субботние группы: 15 занятий х 4,5 часа
Дата начала курса:
(занятия проходят по субботам)
6 февраля 18:45-21:15
(понедельник, среда)
Курс Науки о данных (Data Science) предназначен для систематизации работы с данными различного характера.
Практические знания Data Science, полученные с помощью данного курса, позволят:
- анализировать и структурировать образцы поведения,
- выявлять закономерности и отклонения от них,
- строить неочевидные взаимосвязи между данными.
Особо будет рассмотрен случай влияния нескольких факторов в совокупности для построения надежных моделей прогнозирования поведения.
Методы Машинного обучения, рассмотренные в рамках этого курса, дадут возможность:
- автоматизировать распознавание образцов поведения,
- строить эффективные алгоритмы в зависимости от требуемых характеристик,
- обрабатывать массивы информации и выдавать рекомендации за приемлемое время с заданной точностью.
Среди источников информации будут также рассмотрены реляционные и не реляционные СУБД, текстовые файлы, гипертекстовые документы, социальные сети.
Особенностью курса является максимально эффективная визуализация статистических выводов для эффективного принятия решений. По итогам курса каждый слушатель предоставит отчет о финальном проекте с помощью средств визуализации.
Математический аппарат Data Science. Основы теории вероятностей и математической статистики. Статистические оценки. Законы распределения. Регрессия. Корреляция. И другое.
Обзор инструментария анализа данных. Обзор математических пакетов и языков. Язык R: Особенности сборок, IDE. Установка учебной среды.
R-Studio. Интерфейс пользователя. Окна. Горячие клавиши. Отладка. Организация рабочего пространства. Консоль.
Язык R:
- Основы. Базовые операции и функции. Система помощи. Учебные наборы. Переменные и наборы наблюдений. Создание произвольных наборов.
- Описательный анализ. Фильтрация. Подмножества. Загрузка из файла. Система сопроводительной документации R Markdown. Установка дополнительных пакетов.
- Основные алгоритмические элементы языка. Форматы команд. Условные ветвления. Циклы. Функции.
- Типы данных. Вектор. Матрица. Списки. Data Frame. Особенности работы с ними.
- Базовые пакеты. Изучение функционала базовых пакетов.
Основы Data Science:
- Анализ переменных факторного типа. Уровни факторов. Сортировка меток. Графический вывод. Возможные варианты представления данных.
- Анализ выборки 1й переменной. Визуализация. Диаграммы рассеяния, гистограммы, частотные диаграммы, «коробки с усами». Масштабирование, изменение размерности, нелинейные шкалы. Описательный анализ. Преобразование данных.
- Анализ выборки 2-х переменных. Визуализация. Условное мат. ожидание. Знание предметной области. Корреляция. Шум. Сглаживание. Тренды.
- Многомерный анализ. Сложности многомерного анализа Отношения. Тепловые карты. Типичный диапазон. Сглаживание.
- Регрессия и прогноз. Линейная и нелинейная регрессия. Проблемы линейной регрессии. Прогноз. Предсказывающая аналитика. Сравнение моделей.
- Методы заполнения пропусков данных и нормализации.
- Text Mining. Особенности анализа неструктурированной текстовой информации. Построение выводов.
- Анализ пространственных данных. Особенности анализа и визуализации пространственных данных. Построение карт.
Основы Machine Learning:
- Методы классификации.
- Методы кластеризации. Методы типа к-средних, иерархические методы.
- Методы факторного анализа. Методы уменьшения размерности данных.
- Методы принятия решений. Деревья, леса.
- Нейронные сети.
- Адекватность моделей. Выбор эффективной модели.
Технологии работы с большими и распределенными данными: Обзор технологий Hadoop и др. Пакеты в R. (Глубина изучения опциональна в зависимости от скорости освоения материала группой)
Финальный проект.
