Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

CogVLM源代码是否支持多轮对话训练 #475

Closed
elesun2018 opened this issue May 10, 2024 · 5 comments
Closed

CogVLM源代码是否支持多轮对话训练 #475

elesun2018 opened this issue May 10, 2024 · 5 comments
Assignees

Comments

@elesun2018
Copy link

多轮对话是采用这个吗 chat_old_history_to_prompt
如果数据标签为图文对:问1,答1,问2,答2
chat_old_history_to_prompt生成prompt=问1,答1,问2,预测结果与答2计算loss ?
这样的一条数据:问1,答1,问2,答2。要在网络里面训练几次?
第一次:训练 prompt=问1,第二次训练prompt=问1,答1,问2 ?
对于dataset.py有应该如何读取多轮对话数据标签:
image

使用sat格式微调,如何进行多轮对话训练。
主要修改哪部分代码可以实现多轮对话训练。

是要调用chat_old_history_to_prompt吗
image

应该基于哪个模型训练自有多轮对话数据集
多论对话和单轮对话数据集读取方面有差异吗
image

@elesun2018
Copy link
Author

预训练模型应该选择哪个? cogvlm-base-490?
单轮对话和多轮对话在代码方面主要区别
或者说主要修改哪部分代码可以实现多轮对话训练
image

@elesun2018
Copy link
Author

问1,答1,问2,答2
应该如何设计数据格式和训练模式。
image

@elesun2018
Copy link
Author

我用的grounding模型。

目的是实现以下样式的多轮对话:
问1:图片中是哪个交通工具?
答1:汽车
问2:是什么类型的汽车?
答2:是一辆大众排轿车
问3:汽车有轮子吗?
答3:有。。。
应该如何设计数据标签和训练模式,谢谢

@zRzRzRzRzRzRzR zRzRzRzRzRzRzR self-assigned this May 15, 2024
@elesun2018
Copy link
Author

能否解答一下,非常感谢

@zRzRzRzRzRzRzR
Copy link
Collaborator

zRzRzRzRzRzRzR commented May 29, 2024

支持,我们开源的数据集就有多轮对话,但是grounding 模型应该不行

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants