Dataset size and learning rate #2573

denisvorotyntsevbidease · 2024-01-14T11:01:04Z

denisvorotyntsevbidease
Jan 14, 2024

Problem:

I train a CatBoost model using the training part of the dataset to estimate the validation error. Then, I retrain the model using the full data (training + validation). Do I need to change the hyperparameters of CatBoost to improve performance (number of trees, learning rate, etc.)?

I heard a recommendation to increase the learning rate by the square root of the increased sample size (e.g., 30% more data -> increase the learning rate by 1.3^0.5), but I haven't found any theoretical justifications yet. Any recommendations? Is it a heuristic?

catboost version:
Operating System:
CPU:
GPU:

Evgueni-Petrov-aka-espetrov · 2024-01-15T09:42:30Z

Evgueni-Petrov-aka-espetrov
Jan 15, 2024
Maintainer

it depends but you may have a look at how catboost chooses learning rate
this code is based on experiments that we ran on datasets from a number of open competitions

catboost/catboost/libs/train_lib/options_helper.cpp

Line 117 in 2c0420a

// learning_rate = exp(B + A log size + C log iter - C log 1000);

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Dataset size and learning rate #2573

{{title}}

Replies: 1 comment

{{title}}

Select a reply

Dataset size and learning rate #2573

denisvorotyntsevbidease Jan 14, 2024

Replies: 1 comment

Evgueni-Petrov-aka-espetrov Jan 15, 2024 Maintainer

denisvorotyntsevbidease
Jan 14, 2024

Evgueni-Petrov-aka-espetrov
Jan 15, 2024
Maintainer