spinner-it

Python/R для Data Science

Старт навчання
Старт курсу запитуйте в адміністрації
48 год. Тривалість заняття - 3 год
З 18:30 (19:00)
Двічі на тиждень

Опис курсу:

Як зрозуміти, чи достатньо ви сильні для проходження цього курсу? Просто дайте самому собі відповіді на наступні питання: чи цікавить вас робота з даними (таблицями даних), маніпуляції з ними та їх візуалізація? Чи пам’ятаєте ви зі школи/університету/роботи суть понять “медіана”, “мода”, “розподіл ймовірностей”? Якщо відповіді позитивні, то у вас хороші шанси на успішне проходження курсу.   Цей курс буде корисним:
  • Фахівцям, які хочуть почати кар’єру в Data science;
  • Фахівцям з Data science, які ще не опанували можливості роботи з даними в Python чи R;
  • Спеціалістам, які працюють з даними (аналітикам, бізнес-аналітикам, дослідникам), які хочуть опанувати нові гнучкі інструменти для роботи з даними.
  Філософія курсу: зверніть увагу, що цей курс не зробить з вас повноцінних розробників на Python чи R. З точки зору data science, це, у першу чергу,  два зручних інструменти для виконання робочих задач.

Після вивчення курсу Ви зможете:

  • Розуміти основні алгоритми машинного навчання та практично їх використовувати для задач класифікації та регресії;
  • Аналізувати дані та будувати моделі машинного навчання за допомогою Python i R;
  • Робити якісні й інтерактивні візуалізації даних.

Програма курсу:

  • Модуль 1. Вступ до машинного навчання та Data science
    • Визначення машинного навчання та науки про дані, їх задачі.
    • Інструментарій для аналізу даних: мови програмування Python і R.
    • Типи машинного навчання.
    • Складові частини моделі машинного навчання.
    • Базові концепти машинного навчання.
  • Модуль 2. Основи мов програмування Python і R для Data science
    • IDE для зручної роботи: Jupyter, Spyder & Rstudio.
    • Семантика мови.
    • Типи даних.
    • Структури даних.
    • Оператори контролю виконання (розгалуження та циклів).
    • Векторизація в Python (numpy) i R.
  • Модуль 3. Функціональне програмування в Python i R
    • Comprehension, Generators, Iterators в Python.
    • Функції в Python i R.
    • Вбудовані функції Python.
    • Apply-family функції в R.
    • Бібліотека purrr для функціонального програмування в R.
  • Модуль 4. Дослідження та підготовка даних до аналізу
    • Numpy.
    • Pandas.
    • Фільтрація та агрегація даних в dplyr.
    • Long & wide формати таблиць, їх перетворення в бібліотеках pandas & tidyr.
  • Модуль 5. Візуалізація даних в R i Python
    • Візуалізація даних в R.
    • ggplot2 - grammar of graphics.
    • Інтерактивна графіка в R.
    • Matplotlib & seaborn.
  • Модуль 6. Базові поняття статистичного аналізу
    • Scipy.stats.
    • Описові статистики.
    • Залежності між змінними.
  • Модуль 7. Типові проблеми у підготовці даних до аналізу
    • Перетворення факторних змінних.
    • Боротьба з пропусками в даних.
    • Проблема мультиколінеарності.
    • Шкалювання даних.
    • Вибір інформативних змінних для моделі.
    • Типовий алгоритм підготовки даних до моделювання.
  • Модуль 8. Базові регресійні моделі
    • Лінійна регресія.
    • Поліноміальна регресія.
    • Метод найближчих сусідів.
    • Метрики оцінки якості регресії.
    • Тюнінг регресійних моделей.
  • Модуль 9. Базові моделі класифікації
    • Логістична регресія.
    • Метод опорних векторів.
    • Наївний байєсівський класифікатор.
    • Метрики оцінки якості класифікації.
    • Тюнінг параметрів моделей класифікації.
  • Модуль 10. Базові моделі кластеризації та зниження розмірності
    • Метод к-середніх.
    • Ієрархічний кластерний аналіз.
    • DBSCAN.
    • Факторний аналіз.
    • Кореспонденс-аналіз.
  • Модуль 11. Дерева прийняття рішень та ансамблі
    • Базові деревовидні моделі.
    • Random forest.
    • Xgboost, lightgbm.
    • Тюнінг гіперпараметрів у ансамблевих моделях.
  • Модуль 12. Методи покращення якості моделей машинного навчання
    • Аугментація.
    • Feature engineering.
    • Cross-validation.
    • Боротьба з перенавчанням.
    • Боротьба з дисбалансом даних.
    • Регуляризація моделі.
  • Модуль 13. Вступ до нейронних мереж. Нейронні мережі для класифікації зображень
    • Keras.
    • tensorflow.
    • Перцептрон.
    • CNN.
  • Модуль 14. Прогнозування часових рядів
    • AR, MA, ARMA.
    • ARIMA.
    • VAR.
    • Lstm.
  • Модуль 15. Документація data science проектів, data science in prod
    • Шляхи організації продакшну для data science-проектів.
    • Специфіка документації data science проектів.
    • Markdown, Latex.
  • Модуль 16. Практикум з шляхів покращення якості моделей
    • Презентація і обговорення курсових проектів
    • Підбиття підсумків курсу

Мінімальні вимоги:

  • Досвід програмування будь-якою процедурною мовою;
  • Знання математики в рамках шкільного курсу;
  • Наявність власного ноутбуку для занять в аудиторіях

* Примітка: зазначені знижки не сумуються з іншими діючими акціями та спеціальними пропозиціями. Знижка застосовується тільки до нових заявок та при умові повної оплати курсу. Якщо у Вас виникли питання, звертайтеся за консультацією до наших менеджерів!