NVlabs · SusanLiu0709 · Sep 18, 2023 · Sep 21, 2023 · Sep 21, 2023 · Sep 21, 2023
diff --git a/include/tiny-cuda-nn/encodings/identity.h b/include/tiny-cuda-nn/encodings/identity.h
@@ -60,7 +60,7 @@ __global__ void identity(
  const uint32_t j = encoded_index - i * fan_out;
 
  if (j >= num_to_encode) {
- data_out(j, i) = 1;
+ data_out(j, i) = 0; // data_out(j, i) = 0;
  } else {
  data_out(j, i) = data_in(j, i) * scale + offset;
  }
@@ -84,6 +84,25 @@ __global__ void identity_backward(
  dL_dx(j, i) = (T)((float)dL_dy(j, i) * scale);
 }
 
+template <typename T>
+__global__ void identity_backward_backward(
+ const uint32_t num_outputs,
+ const uint32_t num_elements,
+ const uint32_t n_dims_to_encode,
+ const float scale,
+ MatrixView<const float> dL_ddLdy,
+ MatrixView<T> dL_ddLdx)
+{
+ const uint32_t output_index = threadIdx.x + blockIdx.x * blockDim.x;
+ if (output_index >= num_outputs) return;
+
+ const uint32_t i = output_index / n_dims_to_encode;
+ const uint32_t j = output_index - i * n_dims_to_encode;
+
+ // The identity encoding can simply pass through the derivative.
+ dL_ddLdx(j, i) = (T)(dL_ddLdy(j, i) * scale);
+}
+
 template <typename T>
 class IdentityEncoding : public Encoding<T> {
 public:
@@ -139,6 +158,33 @@ class IdentityEncoding : public Encoding<T> {
  );
  }
 
+ void backward_backward_input_impl(
+ cudaStream_t stream,
+ const Context& ctx,
+ const GPUMatrixDynamic<float>& input,
+ const GPUMatrixDynamic<float>& dL_ddLdinput,
+ const GPUMatrixDynamic<T>& dL_doutput,
+ GPUMatrixDynamic<T>* dL_ddLdoutput = nullptr,
+ GPUMatrixDynamic<float>* dL_dinput = nullptr,
+ bool use_inference_params = false,
+ GradientMode param_gradients_mode = GradientMode::Overwrite
+ ) override {
+ if (!dL_dinput || !dL_ddLdoutput || padded_output_width() == 0) {
+ return;
+ }
+
+ linear_kernel(identity_backward_backward<T>, 0, stream,
+ input.n() * m_n_dims_to_encode,
+ input.n(),
+ m_n_dims_to_encode,
+ m_scale,
+ dL_ddLdinput.view(),
+ dL_ddLdoutput->view()
+ );
+
+ // dL_dinput: don't need to calculate this term, it's default set as 0.0
+ }
+
  uint32_t input_width() const override {
  return m_n_dims_to_encode;
  }

diff --git a/include/tiny-cuda-nn/network_with_input_encoding.h b/include/tiny-cuda-nn/network_with_input_encoding.h
@@ -38,6 +38,33 @@
 
 namespace tcnn {
 
+// element-wise convert float* to T*
+template <typename T>
+__global__ void element_wise_convert(uint32_t n_elements, float* in, T* out) {
+ uint32_t i = blockIdx.x * blockDim.x + threadIdx.x;
+ if (i >= n_elements) return;
+
+ out[i] = (T)in[i];
+}
+
+// element-wise convert T* to float* and then add back to *out
+template <typename T>
+__global__ void element_wise_convert_float(uint32_t n_elements, T* in, float* out) {
+ uint32_t i = blockIdx.x * blockDim.x + threadIdx.x;
+ if (i >= n_elements) return;
+
+ out[i] += (float)in[i];
+}
+
+// element-wise add
+template <typename T>
+__global__ void element_wise_add(uint32_t n_elements, T* in, T* out) {
+ uint32_t i = blockIdx.x * blockDim.x + threadIdx.x;
+ if (i >= n_elements) return;
+
+ out[i] += in[i];
+}
+
 template <typename T>
 class NetworkWithInputEncoding : public Network<float, T> {
 public:
@@ -90,8 +117,8 @@ class NetworkWithInputEncoding : public Network<float, T> {
  bool use_inference_params = false,
  GradientMode param_gradients_mode = GradientMode::Overwrite
  ) override {
- GPUMatrixDynamic<T> dL_dnetwork_input;
  if (m_encoding->n_params() > 0 || dL_dinput) {
+ // dL_dnetwork_input becomes a member of the class instance
  dL_dnetwork_input = {m_encoding->padded_output_width(), input.n(), stream, m_encoding->preferred_output_layout()};
  }
 
@@ -112,6 +139,89 @@ class NetworkWithInputEncoding : public Network<float, T> {
  }
  }
 
+ void backward_backward_input_impl(
+ cudaStream_t stream,
+ const Context& ctx,
+ const GPUMatrixDynamic<float>& input,
+ const GPUMatrixDynamic<float>& dL_ddLdinput,
+ const GPUMatrixDynamic<T>& dL_doutput,
+ GPUMatrixDynamic<T>* dL_ddLdoutput = nullptr,
+ GPUMatrixDynamic<float>* dL_dinput = nullptr,
+ bool use_inference_params = false,
+ GradientMode param_gradients_mode = GradientMode::Overwrite
+ ) override {
+ const auto& forward = dynamic_cast<const ForwardContext&>(ctx);
+
+ // dL_ddLdinput of m_network->backward_baward_input equals to dL_dLdencoding_output (different names)
+ GPUMatrixDynamic<T> dL_dLdnetwork_input;
+
+ if (m_encoding->n_params() > 0) {
+ dL_dLdnetwork_input = {m_encoding->padded_output_width(), input.n(), stream, dL_ddLdinput.layout()};
+ // cudaMemsetAsync: set dL_dLdnetwork_input.data() with 0.0 to avoid NaN initialization
+ CUDA_CHECK_THROW(cudaMemsetAsync(dL_dLdnetwork_input.data(), 0, dL_dLdnetwork_input.n() * dL_dLdnetwork_input.m() * sizeof(T), stream));
+
+ // encoding backward backward
+ m_encoding->backward_backward_input(
+ stream, 
+ *forward.encoding_ctx, 
+ input,
+ dL_ddLdinput,
+ dL_dnetwork_input, // dL1_denc_output
+ &dL_dLdnetwork_input, // dL2_ddL1_denc_output
+ dL_dinput,
+ use_inference_params,
+ param_gradients_mode
+ );
+ } else { // copy dL_ddLdinput (float) to dL_dLdnetwork_input (T)
+ dL_dLdnetwork_input = {m_encoding->padded_output_width(), input.n(), stream, dL_ddLdinput.layout()};
+ linear_kernel(element_wise_convert<T>, 0, stream, dL_dLdnetwork_input.n() * dL_dLdnetwork_input.m(), dL_ddLdinput.data(), dL_dLdnetwork_input.data());
+ }
+
+ // dL2_dinput of m_network->backward_backward_input
+ GPUMatrixDynamic<T> dL2_dnetwork_input;
+ if (m_encoding->n_params() > 0 || dL_dinput) {
+ dL2_dnetwork_input = {m_encoding->padded_output_width(), input.n(), stream, m_encoding->preferred_output_layout()};
+ }
+
+ // network backward backward
+ m_network->backward_backward_input(
+ stream,
+ *forward.network_ctx,
+ forward.network_input, // enc_output i.e. network_input
+ dL_dLdnetwork_input, // dL2_dL1dnetwork_input
+ dL_doutput,
+ dL_ddLdoutput ? dL_ddLdoutput : nullptr,
+ dL2_dnetwork_input.data() ? &dL2_dnetwork_input : nullptr, // dL2_dinput of network
+ use_inference_params,
+ param_gradients_mode
+ );
+
+ // dL2dnetwork_input backward to dL2dinput, first order backward
+ GPUMatrixDynamic<float> dL2_dinput;
+ if (m_encoding->n_params() > 0 || dL2_dnetwork_input.data()) {
+ dL2_dinput = {m_encoding->input_width(), input.n(), stream, input.layout()};
+ }
+
+ if (m_encoding->n_params() > 0) {
+ // backward dL2dnetwork_input to dL2dinput
+ m_encoding->backward(
+ stream,
+ *forward.encoding_ctx,
+ input,
+ forward.network_input, // enc_output
+ dL2_dnetwork_input, // dL2_dencoding_output
+ &dL2_dinput,
+ use_inference_params,
+ GradientMode::Accumulate // dL2denc_w : add up 1st order term
+ );
+
+ linear_kernel(element_wise_add<float>, 0, stream, dL_dinput->n() * dL_dinput->m(), dL2_dinput.data(), dL_dinput->data());
+
+ } else if (dL2_dnetwork_input.data()) {
+ linear_kernel(element_wise_convert_float<T>, 0, stream, dL_dinput->n() * dL_dinput->m(), dL2_dnetwork_input.data(), dL_dinput->data());
+ }
+ }
+
  void set_params_impl(T* params, T* inference_params, T* gradients) override {
  size_t offset = 0;
  m_network->set_params(params + offset, inference_params + offset, gradients + offset);
@@ -181,6 +291,7 @@ class NetworkWithInputEncoding : public Network<float, T> {
 private:
  std::shared_ptr<Encoding<T>> m_encoding;
  std::shared_ptr<Network<T>> m_network;
+ GPUMatrixDynamic<T> dL_dnetwork_input;
 
  struct ForwardContext : public Context {
  GPUMatrixDynamic<T> network_input;

diff --git a/include/tiny-cuda-nn/networks/cutlass_mlp.h b/include/tiny-cuda-nn/networks/cutlass_mlp.h
@@ -66,6 +66,28 @@ class CutlassMLP : public Network<T> {
  GradientMode param_gradients_mode = GradientMode::Overwrite
  ) override;
 
+ void backward_backward_input_impl(
+ cudaStream_t stream,
+ const Context& ctx,
+ const GPUMatrixDynamic<T>& input,
+ const GPUMatrixDynamic<T>& dL_ddLdinput,
+ const GPUMatrixDynamic<T>& dL_doutput,
+ GPUMatrixDynamic<T>* dL_ddLdoutput = nullptr,
+ GPUMatrixDynamic<T>* dL_dinput = nullptr,
+ bool use_inference_params = false,
+ GradientMode param_gradients_mode = GradientMode::Overwrite
+ ) override;
+
+ bool prepare_backward_variables(
+ cudaStream_t stream,
+ const std::vector<GPUMatrix<T>>& output,
+ const GPUMatrixDynamic<T>& dL_doutput,
+ GPUMatrixDynamic<T>& backward_output_tmp,
+ std::vector<GPUMatrix<T>>& dL1dp,
+ std::vector<GPUMatrix<T>>& dL1doutput,
+ bool use_inference_params
+ );
+
  void set_params_impl(T* params, T* inference_params, T* gradients) override;
  void initialize_params(pcg32& rnd, float* params_full_precision, float scale = 1) override;