New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
为什么我总是训练到一半告诉我内存不足, #211
Comments
先尝试把这行注释打开,看是否会直接OOM:https://github.com/yangjianxin1/Firefly/blob/master/component/collator.py#L17 如果直接OOM,则是因为512的长度太长了。 |
|
A10的显存为24GB,全量参数训练7B模型还是略显不足。我这边使用V100全量参数训练7B模型也很吃力。 如果是进行指令微调,结合你的训练资源情况,建议使用QLoRA,也能取得很不错的效果。 |
一般训练多少个step就会OOM呢? |
他不太固定,我遇到17,11,20多 |
我使用QLoRA进行微调时报错如下,我在网上找了很久都没解决
他上面说我显存不足,但是我把配置参数调的非常低依旧是这个问题,我修改好参数后直接运行train.py使用一个gpu训练却可以正常训练 |
昨天我把数据整理成这个样子,但是训练出的效果不太好,请问是我配置文件或者数据有问题吗?
使用
|
你是用的base版模型么?我用base也出现这种情况,然后改用chat模型就没问题了 |
我用了4张A10显卡,总是训练一会显存就崩,下面是我的配置,有什么办法可以解决这个问题吗
The text was updated successfully, but these errors were encountered: