Ноутбук для Kaggle InClass соревнования по бинарной классификации для студентов курса Data Science с Глебом Михайловым.
Задача — предсказать курит человек или нет по его клиническим данным. Целевая метрика — F1-мера.
На 30-07-2023 это решение сидит на первом месте на лидерборде.
Используемые алгоритмы и инструменты:
- Feature Engineering с помощью доменных знаний и автоматической генерацией признаков (
sklearn.preprocessing.PolynomialFeatures
). - Подбор гиперпараметров случайного леса и градиентного бустинга (CatBoost) с помощью Optuna.
- Подбор оптимальных порогов классификации лучших моделей для F1-меры.
- Блендинг предсказаний вероятностей моделей с заданным коэффициентом.