master 解码性能问题 #588

jiangxiluning · 2023-08-21T13:28:34Z

mindocr/mindocr/models/heads/rec_master_decoder.py

Line 148 in 1249bc0

targets = ops.zeros((N, 1), ms.int32)

这段代码有两个性能问题：1. 每次targets 长度会变化，会触发图编译，导致infer 的时间变长。如果steps过长会导致很慢。不利于调试。2. probs 每次会append 一个大tensor，步长过长，会导致显存占用过大，会浪费显存。
可以改成这样：

            targets = ops.fill(ms.int32, (N, num_steps+1), self.padding_symbol)
            targets[:, 0] = 0 # <GO>
            probs = ops.zeros((N, num_steps, self.out_channels), dtype=inputs.dtype)

            for i in range(num_steps):
                target_mask = self._generate_target_mask(targets)
                probs_step = self._decode(inputs, targets, target_mask=target_mask)
                next_input = self.argmax(probs_step)
                targets[:,  i+1] = next_input[:, i]
                probs[:, i] = probs_step[:, i]

            probs = ops.softmax(probs, axis=-1)
            return probs

panshaowu · 2024-01-31T07:54:49Z

感谢您的反馈。我们会安排开发工程师进行测试后，合入您所提供的代码。

panshaowu assigned tonytonglt Feb 5, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

master 解码性能问题 #588

master 解码性能问题 #588

jiangxiluning commented Aug 21, 2023 •

edited

panshaowu commented Jan 31, 2024

master 解码性能问题 #588

master 解码性能问题 #588

Comments

jiangxiluning commented Aug 21, 2023 • edited

panshaowu commented Jan 31, 2024

jiangxiluning commented Aug 21, 2023 •

edited