spinner-it

Програмування на R for Data Science

Старт навчання
Старт курсу запитуйте в адміністрації
36 год. Двічі на тиждень

Опис курсу:

Цей курс буде корисним:
  • фахівцям, які хочуть почати кар’єру в Data science;
  • фахівцям з Data science, які ще не опанували можливості роботи з даними в R;
  • спеціалістам, які працюють з даними (аналітикам, бізнес-аналітикам, дослідникам), які хочуть опанувати новий гнучкий інструмент роботи з даними.

Після вивчення курсу Ви зможете:

  1. аналізувати дані та будувати моделі машинного навчання за допомогою R;
  2. робити якісні й інтерактивні візуалізації даних.

Програма курсу:

Вступ у роботу з даними на R, основні проблеми Data Science

Мета заняття - знайомство з Data Science та проблемами, які можна вирішити використовуючи її. Початок вивчення R.  
  1. Вступ у Data Science
  2. Знайомство з середовищем програмування R
 

Base R та базові поняття статистичного аналізу

Метою цього заняття є опанувати базові функції програмування в R та паралельно з цим пригадати основи статистики та теорії ймовірностей.  
  1. Змінні та шкали, в яких вони вимірюються
  2. Описові статистики
  3. Залежності між змінними
  Практична частина: Exploratory Data Analysis для датасетів, обраних для курсових проектів.  

Маніпуляції з даними в R, бібліотеки tidyverse

Метою цього уроку є знайомство студентів із засобами, які дозволяють зробити ефективний feature engineering.  
  1. Apply-family функції в R
  2. Фільтрація та агрегація даних в dplyr
  3. Long & wide формати таблиць, їх перетворення в бібліотеці tidyr
  4. Робота з time series
  Практична частина: фільтрація та обробка змінних датасетів, обраних для курсового проекту.  

Візуалізація даних в R

  1. ggplot2 - grammar of graphics
  2. Інтерактивна графіка в R

Моделі регресії

  1. Лінійна регресія
  2. Логістична регресія
  3. Генералізовані лінійні моделі
  4. Проблема регуляризації регресійних моделей
  Практична частина: імплементація регресії на даних власних проектів.  

Моделі опорних векторів та Наївний Байєс

  1. Типи класифікаторів
  2. Робота з бібліотеками e1071 та kernlab
  3. Метрики якості моделей множинної класифікації
  4. Байєсівська ймовірність
  5. Імплементація наївного байєсівського класифікатора в caret
 

Деревовидні моделі, ансамблі

  1. CART
  2. Random forest
  3. Boosting
  4. Підбір гіперпараметрів у моделях з бустінгом
  Практична частина: реалізація ансамблевих моделей на R.  

Кластеризація

  1. Проблема кластеризації
  2. k-means
  3. ієрархічний кластерний аналіз
 

Зменшення розмірності

  1. Факторний аналіз (PCA)
  2. Кореспонденс аналіз
 

Вибір та діагностика моделей

  1. Проблема вибору оптимальної метрики для моделі
  2. Систематична та випадкова помилки моделі
  3. Діагностика перенавчання та недонавчання моделі
 

Розгортання і презентація моделей

  1. Автоматизація роботи моделей
  2. Автоматизація репортів
 

Практикум з шляхів покращення якості моделей

  1. Презентація і обговорення курсових проектів
  2. Підбиття підсумків курсу

Мінімальні вимоги:

  • Знання основ програмування: цикли, написання власних функцій;
  • Базові знання з типів даних: розуміння відмінностей між шкалами, суті і специфіки різних типів даних;
  • Знання основ теорії ймовірностей та статистики: розуміння суті таких понять, як мода, медіана, математичне сподівання, нормальний розподіл, дисперсія, перцентиль, частка.

* Вказані знижки не сумуються з іншими діючими акціями та спеціальними пропозиціями. Якщо у Вас виникли питання, звертайтеся за консультацією до наших менеджерів!