Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

out of memory during training #34

Open
NoaHimesaka opened this issue Sep 3, 2020 · 5 comments
Open

out of memory during training #34

NoaHimesaka opened this issue Sep 3, 2020 · 5 comments

Comments

@NoaHimesaka
Copy link

在训练阶段,我使用的是单个GPU 1080ti 显存是11GB
但是显示 RuntimeError: CUDA out of memory.
即使是把input size 从 473 调整到 378 ,依旧显示这个问题,请问有什么好的解决办法吗?

@NoaHimesaka
Copy link
Author

使用2个1080ti的情况下
只有调整batch_size=4
input size=378*378
才不会出现这个问题。。
但是效果就不好

@Starboy-at-earth
Copy link

有同样的问题,你是怎莫解决的

@NoaHimesaka
Copy link
Author

有同样的问题,你是怎莫解决的

我就用了4个1080ti,把batchsize设置成8 但是效果还是比作者batchsize=16的模型差了约2%
顺便问一下你调整reference frame和使用crf结果会有差距吗?我测试的结果没有差距 很奇怪

@Starboy-at-earth
Copy link

有同样的问题,你是怎莫解决的

我就用了4个1080ti,把batchsize设置成8 但是效果还是比作者batchsize=16的模型差了约2%
顺便问一下你调整reference frame和使用crf结果会有差距吗?我测试的结果没有差距 很奇怪

能加个qq交流一下吗,我猜是因为你的4路1080ti的问题。作者应该是用了两个24gram的Titan,因为你这样训练相当于每个GPU上只有两个在做BN,一般至少四个。没看见作者代码里写了跨GPU的BN。而且1080ti的图片size必须得限制到378以下。我的qq是2667004002

@zhenghao977
Copy link

@NoaHimesaka 您好,方便询问一些训练细节吗。我的qq是61758265

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants