似乎没有保存rotary_emb.inv_freq的权重 #58

cristianoc20 · 2023-05-02T03:28:08Z

似乎没有保存rotary_emb.inv_freq的权重

jiangjingyao · 2023-05-04T08:46:43Z

是只有17M的文件生成吗

cristianoc20 · 2023-05-04T12:33:11Z

不是大小是正常的 7B和33B的我都试过我发现腾讯的框架除了rotary_emb.inv_freq以外的权重都会保存看上去是因为这个inv_freq不是一个可学习的参数，可以自己计算，所以不存进去state_dict()（可能了省点模型保存的内存）
我的解决方案是把这个inv_freq使用pytorch的register注册进模型的state_dict()里面，这样模型保存的参数里面就有state_dict()了。但这样会导致deepspeed使用zero_to_fp32时不把inv_freq写进bin文件（因为inv_freq没有可学习的参数，deepspeed会把他当作buff不存进去所以需要改一下zero_to_fp32文件让deepspeed正确保存这个参数）

ydli-ai · 2023-05-04T12:35:58Z

这个权重不需要存，是算出来的，可以参考huggingface的转换代码

…

________________________________ 发件人: cristianoc20 ***@***.***> 发送时间: Thursday, May 4, 2023 8:33:22 PM 收件人: Tencent/TencentPretrain ***@***.***> 抄送: Subscribed ***@***.***> 主题: Re: [Tencent/TencentPretrain] 似乎没有保存rotary_emb.inv_freq的权重 (Issue #58) 不是大小是正常的 7B和33B的我都试过我发现腾讯的框架除了rotary_emb.inv_freq以外的权重都会保存看上去是因为这个inv_freq不是一个可学习的参数，可以自己计算，所以不存进去state_dict()（可能了省点模型保存的内存）我的解决方案是把这个inv_freq使用pytorch的register注册进模型的state_dict()里面，这样模型保存的参数里面就有state_dict()了。但这样会导致deepspeed使用zero_to_fp32时不把inv_freq写进bin文件（因为inv_freq没有可学习的参数，deepspeed会把他当作buff不存进去所以需要改一下zero_to_fp32文件让deepspeed正确保存这个参数） ― Reply to this email directly, view it on GitHub<#58 (comment)>, or unsubscribe<https://github.com/notifications/unsubscribe-auth/AE3SPV6I7XPQMG67UVNIHPTXEOOZFANCNFSM6AAAAAAXSPRTXM>. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

cristianoc20 · 2023-05-04T13:13:09Z

是的我理解他不需要存，但是我的需求是用腾讯的框架预训练出来一个权重，然后加载到另一个框架里面做微调，而现在像huggingface的Llama权重的读取是需要这个权重的，不存的话会报错，所以我才手动实现了

cristianoc20 · 2023-05-04T13:16:13Z

我刚看了你们的转换代码个人建议你们可以选择直接注册进去state_dict()里面这样就不用在转换脚本里再算一次了毕竟训练里面都算一次了干啥不直接存呢~

jiangjingyao · 2023-05-04T13:34:37Z

不是大小是正常的 7B和33B的我都试过我发现腾讯的框架除了rotary_emb.inv_freq以外的权重都会保存看上去是因为这个inv_freq不是一个可学习的参数，可以自己计算，所以不存进去state_dict()（可能了省点模型保存的内存）我的解决方案是把这个inv_freq使用pytorch的register注册进模型的state_dict()里面，这样模型保存的参数里面就有state_dict()了。但这样会导致deepspeed使用zero_to_fp32时不把inv_freq写进bin文件（因为inv_freq没有可学习的参数，deepspeed会把他当作buff不存进去所以需要改一下zero_to_fp32文件让deepspeed正确保存这个参数）

你这个训练使用的命令具体是哪个呢

cristianoc20 · 2023-05-04T14:37:09Z

不是大小是正常的 7B和33B的我都试过我发现腾讯的框架除了rotary_emb.inv_freq以外的权重都会保存看上去是因为这个inv_freq不是一个可学习的参数，可以自己计算，所以不存进去state_dict()（可能了省点模型保存的内存）我的解决方案是把这个inv_freq使用pytorch的register注册进模型的state_dict()里面，这样模型保存的参数里面就有state_dict()了。但这样会导致deepspeed使用zero_to_fp32时不把inv_freq写进bin文件（因为inv_freq没有可学习的参数，deepspeed会把他当作buff不存进去所以需要改一下zero_to_fp32文件让deepspeed正确保存这个参数）

你这个训练使用的命令具体是哪个呢

用的deepspeed那个

yangzhipeng1108 · 2023-05-16T03:09:46Z

不是大小是正常的 7B和33B的我都试过我发现腾讯的框架除了rotary_emb.inv_freq以外的权重都会保存看上去是因为这个inv_freq不是一个可学习的参数，可以自己计算，所以不存进去state_dict()（可能了省点模型保存的内存）我的解决方案是把这个inv_freq使用pytorch的register注册进模型的state_dict()里面，这样模型保存的参数里面就有state_dict()了。但这样会导致deepspeed使用zero_to_fp32时不把inv_freq写进bin文件（因为inv_freq没有可学习的参数，deepspeed会把他当作buff不存进去所以需要改一下zero_to_fp32文件让deepspeed正确保存这个参数）

请问怎么修改zero_to_fp32文件让deepspeed正确保存这个参数

cristianoc20 · 2023-05-16T04:14:33Z

如果用的zero3（zero2同理），在_get_fp32_state_dict_from_zero2_checkpoint中，处理buffer的时候遍历buffer的key value，把你刚才注册进去的那个freq的名字找到，把这个对应的key value存进去state_dict

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

似乎没有保存rotary_emb.inv_freq的权重 #58

似乎没有保存rotary_emb.inv_freq的权重 #58

cristianoc20 commented May 2, 2023

jiangjingyao commented May 4, 2023

cristianoc20 commented May 4, 2023

ydli-ai commented May 4, 2023 via email

cristianoc20 commented May 4, 2023

cristianoc20 commented May 4, 2023

jiangjingyao commented May 4, 2023

cristianoc20 commented May 4, 2023

yangzhipeng1108 commented May 16, 2023

cristianoc20 commented May 16, 2023

似乎没有保存rotary_emb.inv_freq的权重 #58

似乎没有保存rotary_emb.inv_freq的权重 #58

Comments

cristianoc20 commented May 2, 2023

jiangjingyao commented May 4, 2023

cristianoc20 commented May 4, 2023

ydli-ai commented May 4, 2023 via email

cristianoc20 commented May 4, 2023

cristianoc20 commented May 4, 2023

jiangjingyao commented May 4, 2023

cristianoc20 commented May 4, 2023

yangzhipeng1108 commented May 16, 2023

cristianoc20 commented May 16, 2023