Use fuse multi head att #417

xiezipeng-ML · 2022-11-01T04:20:44Z

No description provided.

xiezipeng-ML · 2022-11-01T07:13:11Z

batch size = 4, acc step = 8, amp, open Checkpointing

1n1g	use_fuse_multi_head_att = False	use_fuse_multi_head_att = True
Throughput	total_throughput: 151.70 samples/s	total_throughput: 155.41 samples/s
GPU Memory	3147MiB	3129MiB

在encoder和decoder中的self_att和cross_att中都使用了fuse_multihead_att.
在28号上简单测了一下，带来的提升有限，应该是transpose的使用次数太多，我下个commit准备把if，else直接取消，默认使用fuse_multihead_att来测一下.

@chengtbf @strint @ouyangyu @CPFLAME

CPFLAME · 2022-11-01T07:25:09Z

projects/T5/models/attention.py

+ if self.multihead_attn_fusion:
+  hidden_states = hidden_states.transpose(0, 1)


这里在进行cross_attention的时候, 每次都需要transpose一下

有没有办法只在外面transpose一次?

原本的 fuse multihead attention 就是在整个网络一开始做一次 transpose，使得整个 transformer layer 里的数据维度都是转置后的维度（到 loss 的部分可以考虑再转置回来，但是 Megatron 即使在 loss 部分貌似也是转置后的），这样可以省去每个 layer 内部的 transpose 操作。这样才能达到提升速度的目的。

参考代码：

https://github.com/NVIDIA/Megatron-LM/blob/0bb597b42c53355a567aba2a1357cc34b9d99ddd/megatron/model/transformer.py#L395

默认进到 attention 里面的就是 [sq, b, h] ， batch size 在 dim 1

可以参考之前程鹏和星宇的代码：

16ca685#diff-0579a91f68617ee49042d24fa0fade3f3e1171363d3a14ae611309fa54601020R385

libai/libai/models/gpt_model.py

Line 311 in b1c7d32

hidden_states = hidden_states.transpose(0, 1) # [seq, bs, dim]

…fuse_multi_head_att

…Inc/libai into use_fuse_multi_head_att

xiezipeng-ML · 2022-11-02T11:53:59Z

这里魔改了一下，self_att和cross_att都使用了fuse_muti_head_att，attention层默认为fuse_multi_head_att，一共只多出3个必须的transpose：encode_embedding的输出进行一次transpose，decoder_embedding的输出进行一次transpose，loss接收的logits进行一次transpose
如果数据处理的时候直接处理成[seq_len, batch_size]的shape的话上述3个transpose可以取消
用这个pr下面的单测测过了修改后的模型和huggingface对齐：tests/model_utils/test_mt5_loader_2.py

@chengtbf @CPFLAME @strint @ouyangyu

xiezipeng-ML added 2 commits October 30, 2022 14:44

add fuse multi head att

89e2cb2

refine fuse_multihead_att and add model output unitest

04c38ae

xiezipeng-ML requested review from strint, chengtbf, CPFLAME and ouyangyu November 1, 2022 04:20

CPFLAME reviewed Nov 1, 2022

View reviewed changes

xiezipeng-ML added 11 commits November 1, 2022 14:31

add checkpoint activation

8ac4665

refine

c0c2435

delete useless

fd5dc1b

delete useless

cac1c83

refine

e8f7235

fix model output diff

4b43481

reduce transpose

30f1d15

Merge branch 'main' of https://github.com/Oneflow-Inc/libai into use_…

540965b

…fuse_multi_head_att

Merge branch 'use_fuse_multi_head_att' of https://github.com/Oneflow-…

1072ab7

…Inc/libai into use_fuse_multi_head_att

refine

fe5689e

delete useless

5352d69

reset commit

42e26ae

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Use fuse multi head att #417

Use fuse multi head att #417

xiezipeng-ML commented Nov 1, 2022

xiezipeng-ML commented Nov 1, 2022 •

edited

CPFLAME Nov 1, 2022

chengtbf Nov 1, 2022

chengtbf Nov 1, 2022 •

edited

chengtbf Nov 1, 2022

xiezipeng-ML commented Nov 2, 2022

		if self.multihead_attn_fusion:
		hidden_states = hidden_states.transpose(0, 1)

Use fuse multi head att #417

Are you sure you want to change the base?

Use fuse multi head att #417

Conversation

xiezipeng-ML commented Nov 1, 2022

xiezipeng-ML commented Nov 1, 2022 • edited

batch size = 4, acc step = 8, amp, open Checkpointing

CPFLAME Nov 1, 2022

Choose a reason for hiding this comment

chengtbf Nov 1, 2022

Choose a reason for hiding this comment

chengtbf Nov 1, 2022 • edited

Choose a reason for hiding this comment

chengtbf Nov 1, 2022

Choose a reason for hiding this comment

xiezipeng-ML commented Nov 2, 2022

xiezipeng-ML commented Nov 1, 2022 •

edited

chengtbf Nov 1, 2022 •

edited