Основи Data Science, мова R

Інформація про курс:


Вартість: 5 000 грн / міс 

Тривалість курсу: 2 міс (45 годин)
Суботні групи: 10 зан х 4,5 годин

Формат навчання: Онлайн / Online  

Дата початку курсу:



4 вересня 2021 року 10:00-14:30 
(заняття проходять по суботах)

 

Курс Науки про дані (Data Science) призначений для систематизації роботи з даними різного характеру.

Практичні знання Data Science, отримані за допомогою даного курсу, дозволять: аналізувати і структурувати зразки поведінки, виявляти закономірності і відхилення від них, будувати неочевидні взаємозв'язки між даними.

Особливо буде розглянуто випадок впливу декількох чинників в сукупності для побудови надійних моделей прогнозування поведінки.

Методи Машинного навчання, розглянуті в рамках цього курсу, дадуть можливість: автоматизувати розпізнавання зразків поведінки, будувати ефективні алгоритми в залежності від необхідних характеристик, обробляти масиви інформації і видавати рекомендації за прийнятний час із заданою точністю.

Серед джерел інформації будуть також розглянуті реляційні та нереляційні СУБД, текстові файли, гіпертекстові документи, соціальні мережі.

Особливістю курсу є максимально ефективна візуалізація статистичних висновків для ефективного прийняття рішень. За підсумками курсу кожен слухач надасть звіт про фінальний проект за допомогою засобів візуалізації.

Вимоги до слухачів курсу: Впевнені знання основ математичного аналізу, математичної статистики та теорії ймовірностей. Досвід програмування на будь-якій мові. Впевнений користувач електронних таблиць.

 

Математичний апарат Data Science. Основи теорії ймовірностей і математичної статистики. Статистичні оцінки. Закони розподілу. Регресія. Кореляція. Та інше.

Огляд інструментарію аналізу даних. Огляд математичних пакетів і мов. Мова R: Особливості збірок, IDE. Установка навчального середовища.

R-Studio. Інтерфейс користувача. Вікна. Гарячі клавіші. Налагодження. Організація робочого простору. Консоль.

Мова R:

  • Основи. Базові операції і функції. Система допомоги. Навчальні набори. Змінні і набори спостережень. Створення довільних наборів.
  • Описовий аналіз. Фільтрація. Підмножини. Завантаження з файлу. Система супровідної документації R Markdown. Встановлення додаткових пакетів.
  • Основні алгоритмічні елементи мови. Формати команд. Умовні розгалуження. Цикли. Функції.
  • Типи даних. Вектор. Матриця. Списки. Data Frame. Особливості роботи з ними.
  • Базові пакети. Вивчення функціоналу базових пакетів.

Основи Data Science:

  • Аналіз змінних факторного типу. Рівні факторів. Сортування міток. Графічний висновок. Можливі варіанти представлення даних.
  • Аналіз вибірки 1й змінної. Візуалізація. Діаграми розсіювання, гістограми, частотні діаграми, «коробки з вусами». Масштабування, зміна розмірності, нелінійні шкали. Описовий аналіз. Перетворення даних.
  • Аналіз вибірки 2-х змінних. Візуалізація. Умовне мат. очікування. Знання предметної області. Кореляція. Шум. Згладжування. Тренди.
  • Багатомірний аналіз. Складнощі багатовимірного аналізу Відносини. Теплові карти. Типовий діапазон. Згладжування.
  • Регресія і прогноз. Лінійна і нелінійна регресія. Проблеми лінійної регресії. Прогноз. Пророкує аналітика. Порівняння моделей.
  • Методи заповнення пропусків даних і нормалізації.
  • Text Mining. Особливості аналізу неструктурованої текстової інформації. Побудова висновків.
  • Аналіз просторових даних. Особливості аналізу та візуалізації просторових даних. Побудова карт.

Основи Machine Learning:

  • Методи класифікації.
  • Методи кластеризації. Методи типу к-середніх, ієрархічні методи.
  • Методи факторного аналізу. Методи зменшення розмірності даних.
  • Методи прийняття рішень. Дерева, лісу. Нейронні мережі.
  • Адекватність моделей. Вибір ефективної моделі.

Фінальний проект.