Опис курсу:

Даний курс орієнтований на фахівців в різних областях інформаційних технологій, що мають досвід програмування і бажають отримати уявлення про сучасні методи машинного навчання з використанням технології BigData. Ці методи застосовуються в аналізі сирих даних, пошуку прихованих закономірностей, вирішенні задач класифікації та прогнозування.

Після вивчення курсу Ви зможете:

  • Застосовувати основний інструментарій фахівця в області Data Science: мова програмування Python, бібліотеки numpy, pandas, matplotlib, scikit-learn, середовища розробки PyCharm, Jupyter Notebook;
  • Вирішувати завдання класифікації, кластеризації та регресії за допомогою алгоритмів машинного навчання, а також оцінювати якість моделей;
  • Будувати системи машинного навчання на основі даних великого обсягу з використанням BigData-фреймворка Spark.

Програма курсу:

Модуль 1. Вступ до машинного навчання та Data science

  • Визначення машинного навчання та науки про дані, їх задачі
  • Інструментарій для аналізу даних: мови програмування Python і R
  • Типи машинного навчання
  • Складові частини моделі машинного навчання
  • Базові концепти машинного навчання

Модуль 2. Основи мови програмування Python

  • Інтерпретатор Python та запуск програм.
  • Семантика мови.
  • Типи даних.
  • Структури даних.
  • Оператори контролю виконання (розгалуження та циклів).

Модуль 3. Функціональне програмування в Python

  • Comprehension, Generators, Iterators.
  • Функції в Python.
  • Вбудовані функції Python.

Модуль 4. Об’єктно-орієнтоване програмування в Python

  • ООП в Python.
  • Область видимості (namespaces і scope).
  • Основи роботи з модулями та пакетами, система імпортування.

Модуль 5. Дослідження та підготовка даних до аналізу

  • Numpy
  • Pandas
  • Scipy
  • Matplotlib & seaborn

Модуль 6. Типові проблеми у підготовці даних до аналізу

  • Перетвореня факторних змінних
  • Боротьба з пропусками в даних
  • Проблема мультиколінеарності
  • Шкалювання даних
  • Вибір інформативних змінних для моделі
  • Типовий алгоритм підготовки даних до моделювання

Модуль 7. Базові регресійні моделі

  • Лінійна регресія
  • Поліноміальна регресія
  • Метод найближчих сусідів
  • Метрики оцінки якості регресії
  • Тюнінг регресійних моделей

Модуль 8. Базові моделі класифікації

  • Логістична регресія
  • Метод опорних векторів
  • Наївний байєсівський класифікатор
  • Метрики оцінки якості класифікації
  • Тюнінг параметрів моделей класифікації

Модуль 9. Базові моделі кластеризації та зниження розмірності

  • Метод к-середніх
  • Ієрархічний кластерний аналіз
  • DBSCAN
  • Факторний аналіз
  • Кореспонденс аналіз

Модуль 10. Дерева прийняття рішень та ансамблі

  • Базові деревовидні моделі
  • Random forest
  • XGBOOST, lightgbm
  • Тюнінг гіперпараметрів у ансамблевих моделях

Модуль 11. Методи покращення якості моделей машинного навчання

  • Аугментація
  • Feature engineering
  • Cross-validation
  • Боротьба з перенавчанням
  • Боротьба з дисбалансом даних
  • Регуляризація моделі

Модуль 12. Нейронні мережі

  • Keras
  • tensorflow
  • RNN
  • CNN
  • GAN

Модуль 13. Введення в Big Data

  • Джерела даних: HDFS, Apache Kafka
  • Пакет pySpark

Модуль 14. Практикум з шляхів покращення якості моделей

  • Презентація і обговорення курсових проектів
  • Підбиття підсумків курсу

Мінімальні вимоги:

  • Досвід програмування будь-якою процедурною мовою;
  • Знання математики в рамках шкільного курсу.
  • Наявність власного ноутбуку для занять в аудиторіях

* Вказані знижки не сумуються з іншими діючими акціями та спеціальними пропозиціями. Якщо у Вас виникли питання, звертайтеся за консультацією до наших менеджерів!