Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于学生模型 #144

Open
TinaChen95 opened this issue Nov 2, 2023 · 2 comments
Open

关于学生模型 #144

TinaChen95 opened this issue Nov 2, 2023 · 2 comments

Comments

@TinaChen95
Copy link

请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢?
学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢?
训练学生模型一般多久收敛呀?

@MaxMax2016
Copy link
Collaborator

请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢?

如果只需要减小decoder的参数,可以的啊

学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢?

这是以同一数据为前提进行的,可能叫法不准确,目的就是用同一数据上训练的大参数模型来训练小参数模型

训练学生模型一般多久收敛呀?

至少需要训练500 epochs吧

@Isshang
Copy link

Isshang commented Jan 25, 2024

请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢?

如果只需要减小decoder的参数,可以的啊

学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢?

这是以同一数据为前提进行的,可能叫法不准确,目的就是用同一数据上训练的大参数模型来训练小参数模型

训练学生模型一般多久收敛呀?

至少需要训练500 epochs吧
作者你好,知识蒸馏用的什么方法呀?有参考文献或者项目吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants