实现断点恢复的逻辑和自动选择可用端口 #728

LEON-gittech · 2024-04-26T03:38:38Z

实现断点恢复的逻辑和自动选择可用端口，端口不可用的报错还是很常见的，对于公司内部使用来说不是很方便，因为并不是在本地运行，每次都要提交一个任务，报错的话又要重新提交一个任务

staoxiao · 2024-04-27T17:04:26Z

@LEON-gittech ，感谢您的提交。
但是这个PR里面存在很多无关的内容，比如debug_args.ipynb 和一些中文注释。
另外，huggingface trainer有断点重启的功能，基于其实现会更加简洁。可以简单的在train()里设置resume_from_checkpoint=True

  if list(pathlib.Path(training_args.output_dir).glob("checkpoint-*")):
      trainer.train(resume_from_checkpoint=True)
  else:
      trainer.train()

LEON-gittech · 2024-04-27T17:36:28Z

我这么实现的原因在于很多情况下我并不是从头开始训练的，我是基于别人微调过的模型或者预训练的模型做进一步的训练，那我又不能修改原本的模型路径，也就是我需要去创建一个新的路径来存放我的checkpoint，还有就是如果 resume_from_checkpoint=True 的话 checkpoint 应该是会保存在本地的，但比如公司里面很常见的场景是起的任务是一个暂时的环境，所以肯定是不能把 checkpoint 保存在环境本地的，需要指定到一个hdfs 或者 nas 地址，这样即便这个任务被 kill 了但 checkpoint 还在。

leon.kepler and others added 7 commits April 21, 2024 13:32

new

31706f7

new

a80075f

new

aa9724e

new

0177bc7

Merge branch 'FlagOpen:master' into master

4174dcb

new

de4cfe4

new

e2a9211

leon.kepler added 21 commits May 7, 2024 15:36

new

a3ad2b8

new

f47647b

new

903d6d7

new

1350915

new

78c7cd3

new

4b30eb1

new

9582d94

new

efc0e52

new

ea4873d

new

d48a58c

new

6ac8671

new

14ae116

new

109ed3a

new

6ce21cf

new

153f434

new

d573b4c

new

561916a

new

1e951dc

new

5006ef4

new

8a9f2a8

new

5d3d7c9

leon.kepler added 6 commits May 10, 2024 19:29

new

2de4f5d

new

4128093

new

8adea8e

new

daf625b

new

f335894

new

3af708e

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

实现断点恢复的逻辑和自动选择可用端口 #728

实现断点恢复的逻辑和自动选择可用端口 #728

LEON-gittech commented Apr 26, 2024

staoxiao commented Apr 27, 2024

LEON-gittech commented Apr 27, 2024

实现断点恢复的逻辑和自动选择可用端口 #728

Are you sure you want to change the base?

实现断点恢复的逻辑和自动选择可用端口 #728

Conversation

LEON-gittech commented Apr 26, 2024

staoxiao commented Apr 27, 2024

LEON-gittech commented Apr 27, 2024