微调出来会有不礼貌或攻击性的言语 #108

1737686924 · 2024-05-11T03:12:45Z

是语料的问题吗，qwen-7b-chat和baichuan2-7b-chat使用甄嬛数据集微调训练后，出现回答会有抵制性语言，具体表现在你骂它，他会反骂人。

KMnO4-zx · 2024-05-11T04:18:32Z

正常的，那可是嬛嬛，你骂嬛嬛一句，还不许嬛嬛还嘴啦？哈哈哈啊哈

1737686924 · 2024-05-11T04:36:09Z

正常的，那可是嬛嬛，你骂嬛嬛一句，还不许嬛嬛还嘴啦？哈哈哈啊哈

1737686924 · 2024-05-11T04:37:23Z

正常的，那可是嬛嬛，你骂嬛嬛一句，还不许嬛嬛还嘴啦？神奇，在这一方面达到人类的水平

Provide feedback