Add Double-Buffer TMA Support for Pointwise and Normalization Kernels #2197

rdspring1 · 2024-05-03T18:58:23Z

Pipelining - (Multiple mbarriers per TensorView)

Launch multiple TMA operations simultaneously but process each stage as they become available.

Motivation

Overlap data movement with computation

Pseudo-code

 for each stage of producer TV:
   launch TMA operation for stage
 end for

 for each stage of consumer:
   wait for corresponding TMA stage to become available
 end for

Example: Synchronous TMA

      uint64_t* T6 = reinterpret_cast<uint64_t*>(array + smem_offset + 8208LL);
      mbarrier::init(toSmem(T6), 1U);
      __syncthreads();
      if (b12) {
        uint64_t i26;
        i26 = mbarrier::arriveExpectTX(toSmem(T6), 4096U);
        Hopper::cpAsyncBulkTensorTileG2S((Hopper::CpAsyncBulkTensorTileG2SIndex<2>{ ptr4, a23, toSmem(T6) }), i6);
        mbarrier::wait(toSmem(T6), i26);
      }
      __syncthreads();
      mbarrier::inval(toSmem(T6));
      NVFUSER_UPDATE_MAGIC_ZERO;
      uint64_t* T7 = reinterpret_cast<uint64_t*>(array + smem_offset + 8192LL);
      mbarrier::init(toSmem(T7), 1U);
      __syncthreads();
      if (b12) {
        uint64_t i27;
        i27 = mbarrier::arriveExpectTX(toSmem(T7), 4096U);
        Hopper::cpAsyncBulkTensorTileG2S((Hopper::CpAsyncBulkTensorTileG2SIndex<2>{ ptr7, a23, toSmem(T7) }), i8);
        mbarrier::wait(toSmem(T7), i27);
      }
      __syncthreads();
      mbarrier::inval(toSmem(T7));
      NVFUSER_UPDATE_MAGIC_ZERO;
      
      // compute

The text was updated successfully, but these errors were encountered:

rdspring1 added the TMA label May 3, 2024

rdspring1 changed the title ~~Double-Buffer TMA Support for Pointwise and Normalization Kernels~~ Add Double-Buffer TMA Support for Pointwise and Normalization Kernels May 3, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add Double-Buffer TMA Support for Pointwise and Normalization Kernels #2197

Add Double-Buffer TMA Support for Pointwise and Normalization Kernels #2197

rdspring1 commented May 3, 2024

Add Double-Buffer TMA Support for Pointwise and Normalization Kernels #2197

Add Double-Buffer TMA Support for Pointwise and Normalization Kernels #2197

Comments

rdspring1 commented May 3, 2024

Pipelining - (Multiple mbarriers per TensorView)

Motivation