MLflowでらくらく前処理・機械学習・予測API一連化

marp	paginate
true	true

MLflowでらくらく前処理・機械学習・予測API一連化

MLflow で実験のパラメータ、メトリックや学習済みモデルの記録については、情報が豊富に見つかりますが、しかし前処理と学習・予測を一連の処理としてパイプライン化する、分かりやすい簡単なサンプルが見つからなかったので、作ってみました。

よって、このサンプルでは、前処理と学習・予測のパイプライン化に重点を置きます。また、予測サービス(REST)を簡単に立ち上げられることについても少し触れます。

概要

データ: タイタニック号乗客の生存
Pandasで前処理
H2O AutoMLやAutoGluonで機械学習
MLflow custom modelで前処理と学習・予測をつなげる 🎶
MLflow models serveで予測RESTサービス

なお、 Python や各種ライブラリのバージョンによっては mlflow serving で予測するときと、 mlflowの保存済みモデルで予測するときとで、予測結果（確率）に差異が見られるので注意が必要です。

環境変数

cp -i .env_sample .env

開発環境の準備

.devcontainer/Dockerfile で Mamba/Conda環境作成

データ前処理

試しに Age, Fareの Min-Maxスケーリング序に、列名を日本語化して日本語の列名への対応をみる。

make preproc

AutoML で自動学習

H2OAutoML で学習

make train_h2o

AutoGluon で学習

make train_autogluon

予測APIサービスの起動

デフォルトで5000番ポートが使われます。

make serve_model

または、予測API用コンテナを作れます。

make serve

上記サービスに対するテスト

make test_h2o

または

make test_autogluon

同じテストデータに対して、APIを使って予測させる場合と、モデルを直接ロードして予測させる場合とを比較して、同じ予測結果になることを確認します

参考）APIのJSON形式

Request

{ "columns": [ "x1", "x2", "x3" ],
  "data": [
               [ 3,    2,    5 ],
               [ 1,    4,    8 ] ] }

Response（分類問題）

分類の確率

[ 0.7, 0.6 ]

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
.devcontainer		.devcontainer
autogluon_mlflow		autogluon_mlflow
common		common
container		container
coordinator_mlflow		coordinator_mlflow
h2o_mlflow		h2o_mlflow
out/UML		out/UML
scorer		scorer
scripts		scripts
.env_sample		.env_sample
.gitignore		.gitignore
Makefile		Makefile
README.md		README.md
UML.puml		UML.puml
conda-dev.yml		conda-dev.yml
docker-compose.yml		docker-compose.yml
pytest.ini		pytest.ini

Tre-Xanh/automl

Folders and files

Latest commit

History

Repository files navigation

MLflowでらくらく前処理・機械学習・予測API一連化

概要

環境変数

開発環境の準備

データ前処理

AutoML で自動学習

H2OAutoML で学習

AutoGluon で学習

予測APIサービスの起動

上記サービスに対するテスト

参考）APIのJSON形式

About

Topics

Resources

Stars

Watchers

Forks

Languages