ziya2预训练的语料拼接是如何通过attention mask规避的 #444

linyubupa · 2023-11-16T16:53:59Z

zztMermory · 2023-11-23T02:12:57Z

同问＋１

qibao77 · 2023-12-04T11:59:45Z

同问+1

ganzhiruyi · 2023-12-06T03:17:15Z

只需要把当前token前面不属于同一个doc的token对应的attention_mask设置成0即可，不同doc通过eos即可区分。

qibao77 · 2023-12-11T03:47:50Z

只需要把当前token前面不属于同一个doc的token对应的attention_mask设置成0即可，不同doc通过eos即可区分。
@ganzhiruyi
但是这种方式生成的attention_mask是不是不能用flash attention呀？或者说自己改flash attention?

ganzhiruyi · 2023-12-11T03:56:19Z

可以用flash attention triton

Provide feedback