New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[@parallel on Kubernetes] support for Jobsets #1804

Open

valayDave wants to merge 1 commit into Netflix:master from valayDave:valay/oss-jobsets

Collaborator

valayDave commented Apr 18, 2024 •

edited

Implementation originates from [#1744] but now supersedes the PR.

This commit adds support for @parallel when flows are run --with kubernetes Support for Argo workflows will follow in a separate commit.

A user can run a flow with the following:

@step
def start(self):
    self.next(self.parallel_step, num_parallel=3)

@kubernetes(cpu=1, memory=512)
@parallel
@step
def parallel_step(self):
...

shrinandj reviewed

View reviewed changes

metaflow/plugins/kubernetes/kubernetes_job.py Outdated Show resolved Hide resolved

shrinandj reviewed

View reviewed changes

metaflow/plugins/kubernetes/kubernetes_job.py Outdated Show resolved Hide resolved

shrinandj reviewed

View reviewed changes

metaflow/plugins/kubernetes/kubernetes_job.py Outdated Show resolved Hide resolved

shrinandj reviewed

View reviewed changes

metaflow/plugins/kubernetes/kubernetes_job.py Outdated Show resolved Hide resolved

shrinandj reviewed

View reviewed changes

metaflow/plugins/kubernetes/kubernetes_job.py Outdated Show resolved Hide resolved

savingoyal reviewed

View reviewed changes

metaflow/plugins/kubernetes/kubernetes_job.py Outdated Show resolved Hide resolved

savingoyal reviewed

View reviewed changes

metaflow/plugins/kubernetes/kubernetes_job.py Outdated Show resolved Hide resolved

valayDave force-pushed the valay/oss-jobsets branch from 302ae6a to 93f8a11 Compare

May 6, 2024 23:21

valayDave commented

View reviewed changes

metaflow/plugins/kubernetes/kubernetes_decorator.py

Comment on lines +452 to +482

+ num_parallel = None
+ if hasattr(flow, "_parallel_ubf_iter"):
+ num_parallel = flow._parallel_ubf_iter.num_parallel
+ if num_parallel and num_parallel >= 1 and ubf_context == UBF_CONTROL:
+ control_task_id, worker_task_ids = TaskIdConstructor.join_step_task_ids(
+ num_parallel
+ )
+ mapper_task_ids = [control_task_id] + worker_task_ids
+ flow._control_mapper_tasks = [
+ "%s/%s/%s" % (run_id, step_name, mapper_task_id)
+ for mapper_task_id in mapper_task_ids
+ ]
+ flow._control_task_is_mapper_zero = True
+ if num_parallel and num_parallel > 1:
+ _setup_multinode_environment()

Collaborator Author

valayDave May 6, 2024

Needed so that Join steps has all the relevant task-ids.

metaflow/plugins/kubernetes/kubernetes_job.py

Comment on lines +64 to +65

		def create_job_spec(self):
		client = self._client.get()

Collaborator Author

valayDave May 6, 2024

has to create a sub-function called create_job_spec so we could reuse the jobspec created for K8s jobs and plug that in directly into Jobsets.

metaflow/plugins/kubernetes/kubernetes_job.py Outdated Show resolved Hide resolved

metaflow/plugins/kubernetes/kubernetes_job.py Outdated Show resolved Hide resolved

metaflow/plugins/kubernetes/kubernetes_jobsets.py

		return overall_status, control_exit_code, control_pod_failed


		def _construct_jobset_logical_status(jobset, control_pod=None):

Collaborator Author

valayDave May 6, 2024

Main function which helps compute the logical status of the jobset.

metaflow/plugins/kubernetes/kubernetes_jobsets.py

		)


		class RunningJobSet(object):

Collaborator Author

valayDave May 6, 2024

Interface similar to RunningJob so that the runtime process can monitor the jobset.

metaflow/plugins/kubernetes/kubernetes_jobsets.py

		).jobset_failed


		class TaskIdConstructor:

Collaborator Author

valayDave May 6, 2024

This helps constructing all the task-ids from one place

Contributor

shrinandj May 8, 2024

Excellent! Thanks for this implementation. Otherwise, it could get hard figuring out how/where the task ids get constructed.

metaflow/plugins/kubernetes/kubernetes_jobsets.py

		)


		class KubernetesJobSet(object):

Collaborator Author

valayDave May 6, 2024 •

edited

It creates one control and one worker definition. The workers will have replicas set to num_parallel-1. All workers and control will leverage the "jobspec" created by the KubernetesJob interface.

metaflow/plugins/kubernetes/kubernetes_jobsets.py Outdated Show resolved Hide resolved

metaflow/plugins/kubernetes/kubernetes_client.py

@@ @@ -4,7 +4,7 @@ @@
 from metaflow.exception import MetaflowException
-from .kubernetes_job import KubernetesJob
+from .kubernetes_job import KubernetesJob, KubernetesJobSet

Collaborator Author

valayDave May 6, 2024

Need this import for Kubernetes clients which maybe getting used via extensions.

shrinandj reviewed

View reviewed changes

metaflow/plugins/kubernetes/kubernetes_jobsets.py

		)


		def _basic_validation_for_js(jobset):

Contributor

shrinandj May 8, 2024

Nice!

shrinandj approved these changes

View reviewed changes

valayDave force-pushed the valay/oss-jobsets branch from 93f8a11 to a25f980 Compare

May 8, 2024 23:50

valayDave commented

View reviewed changes

metaflow/plugins/kubernetes/kubernetes_job.py Outdated Show resolved Hide resolved

metaflow/plugins/kubernetes/kubernetes_jobsets.py

+ control_pod_status=None,
+ worker_pods_failed=False,
+ control_pod_failed=False,
+ some_jobs_are_running=False,

Collaborator Author

valayDave May 9, 2024

some_jobs_are_running helps derive if something is running or not.

metaflow/plugins/kubernetes/kubernetes_jobsets.py

Comment on lines +648 to +662

		self._group = KUBERNETES_JOBSET_GROUP
		self._version = KUBERNETES_JOBSET_VERSION

Collaborator Author

valayDave May 9, 2024

Making this configurable so that we can have code paths that deal with different GROUP /VERSIONS based on what they are set in the config.

metaflow/plugins/kubernetes/kubernetes_jobsets.py

+ num_parallel=num_parallel,
+ namespace=namespace,
+ )
+ worker_task_id = TaskIdConstructor.jobset_worker_id(task_id)

Collaborator Author

valayDave May 9, 2024

Single place where we construct the Task-id

valayDave force-pushed the valay/oss-jobsets branch from a25f980 to 1bc4c17 Compare

May 10, 2024 16:49


[@parallel on Kubernetes] support for Jobsets

8ca8cd3

Implementation originates from [Netflix#1744]

This commit adds support for @parallel when flows are run `--with kubernetes`
Support for Argo workflows will follow in a separate commit.

A user can run a flow with the following:

    @step
    def start(self):
        self.next(self.parallel_step, num_parallel=3)

    @kubernetes(cpu=1, memory=512)
    @parallel
    @step
    def parallel_step(self):
    ...

Some notes about the implementation:

- No annotations for task-id in pods since We cannot dynamically construct the task-id during K8s container runtime.
- @catch is currently not supported with @parallel on kubernetes
- metadata about jobset name exists in the task-metadata
- The jobset will contain two job definitions; One for control and one for worker.
- The worker will have n-1 replicas created.
- We construct the worker task-id determininstically using naming conventions and shell hacking.
- Jobset is considered running even if one job amongst all of them are running.
- @Retry will work with jobset

valayDave force-pushed the valay/oss-jobsets branch from 1bc4c17 to 8ca8cd3 Compare

May 13, 2024 18:18

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment