cloneofsimo · aiXander · Feb 14, 2023 · Feb 14, 2023 · Feb 14, 2023 · Feb 14, 2023
diff --git a/lora_diffusion/cli_lora_pti.py b/lora_diffusion/cli_lora_pti.py
@@ -46,6 +46,8 @@
  prepare_clip_model_sets,
  evaluate_pipe,
  UNET_EXTENDED_TARGET_REPLACE,
+ parse_safeloras_embeds,
+ apply_learned_embed_in_clip,
 )
 
 def preview_training_batch(train_dataloader, mode, n_imgs = 40):
@@ -67,6 +69,52 @@ def preview_training_batch(train_dataloader, mode, n_imgs = 40):
  print(f"\nSaved {imgs_saved} preview training imgs to {outdir}")
  return
 
+def sim_matrix(a, b, eps=1e-8):
+ """
+ added eps for numerical stability
+ """
+ a_n, b_n = a.norm(dim=1)[:, None], b.norm(dim=1)[:, None]
+ a_norm = a / torch.max(a_n, eps * torch.ones_like(a_n))
+ b_norm = b / torch.max(b_n, eps * torch.ones_like(b_n))
+ sim_mt = torch.mm(a_norm, b_norm.transpose(0, 1))
+ return sim_mt
+
+
+def compute_pairwise_distances(x,y):
+ # compute the L2 distance of each row in x to each row in y (both are torch tensors)
+ # x is a torch tensor of shape (m, d)
+ # y is a torch tensor of shape (n, d)
+ # returns a torch tensor of shape (m, n)
+
+ n = y.shape[0]
+ m = x.shape[0]
+ d = x.shape[1]
+
+ x = x.unsqueeze(1).expand(m, n, d)
+ y = y.unsqueeze(0).expand(m, n, d)
+
+ return torch.pow(x - y, 2).sum(2)
+
+
+def print_most_similar_tokens(tokenizer, optimized_token, text_encoder, n=10):
+ with torch.no_grad():
+ # get all the token embeddings:
+ token_embeds = text_encoder.get_input_embeddings().weight.data
+
+ # Compute the cosine-similarity between the optimized tokens and all the other tokens
+ similarity = sim_matrix(optimized_token.unsqueeze(0), token_embeds).squeeze()
+ similarity = similarity.detach().cpu().numpy()
+
+ distances = compute_pairwise_distances(optimized_token.unsqueeze(0), token_embeds).squeeze()
+ distances = distances.detach().cpu().numpy()
+
+ # print similarity for the most similar tokens:
+ most_similar_tokens = np.argsort(similarity)[::-1]
+
+ print(f"{tokenizer.decode(most_similar_tokens[0])} --> mean: {optimized_token.mean().item():.3f}, std: {optimized_token.std().item():.3f}, norm: {optimized_token.norm():.4f}")
+ for token_id in most_similar_tokens[1:n+1]:
+ print(f"sim of {similarity[token_id]:.3f} & L2 of {distances[token_id]:.3f} with \"{tokenizer.decode(token_id)}\"")
+
 
 def get_models(
  pretrained_model_name_or_path,
@@ -139,19 +187,21 @@ def get_models(
  pretrained_vae_name_or_path or pretrained_model_name_or_path,
  subfolder=None if pretrained_vae_name_or_path else "vae",
  revision=None if pretrained_vae_name_or_path else revision,
+ local_files_only = True,
  )
  unet = UNet2DConditionModel.from_pretrained(
  pretrained_model_name_or_path,
  subfolder="unet",
  revision=revision,
+ local_files_only = True,
  )
 
  return (
  text_encoder.to(device),
  vae.to(device),
  unet.to(device),
  tokenizer,
- placeholder_token_ids,
+ placeholder_token_ids
  )
 
 
@@ -477,12 +527,13 @@ def train_inversion(
 
  if global_step % accum_iter == 0:
  # print gradient of text encoder embedding
- print(
- text_encoder.get_input_embeddings()
- .weight.grad[index_updates, :]
- .norm(dim=-1)
- .mean()
- )
+ if 0:
+ print(
+ text_encoder.get_input_embeddings()
+ .weight.grad[index_updates, :]
+ .norm(dim=-1)
+ .mean()
+ )
  optimizer.step()
  optimizer.zero_grad()
 
@@ -517,8 +568,10 @@ def train_inversion(
  index_no_updates
  ] = orig_embeds_params[index_no_updates]
 
- for i, t in enumerate(optimizing_embeds):
- print(f"token {i} --> mean: {t.mean().item():.3f}, std: {t.std().item():.3f}, norm: {t.norm():.4f}")
+ if global_step % 50 == 0:
+ print("------------------------------")
+ for i, t in enumerate(optimizing_embeds):
+ print_most_similar_tokens(tokenizer, t, text_encoder)
 
  global_step += 1
  progress_bar.update(1)
@@ -537,7 +590,7 @@ def train_inversion(
  placeholder_token_ids=placeholder_token_ids,
  placeholder_tokens=placeholder_tokens,
  save_path=os.path.join(
- save_path, f"step_inv_{global_step}.safetensors"
+ save_path, f"step_inv_{global_step:04d}.safetensors"
  ),
  save_lora=False,
  )
@@ -583,7 +636,7 @@ def train_inversion(
  return
 
 import matplotlib.pyplot as plt
-def plot_loss_curve(losses, name, moving_avg=20):
+def plot_loss_curve(losses, name, moving_avg=5):
  losses = np.array(losses)
  losses = np.convolve(losses, np.ones(moving_avg)/moving_avg, mode='valid')
  plt.plot(losses)
@@ -654,7 +707,7 @@ def perform_tuning(
  vae,
  text_encoder,
  scheduler,
- optimized_embeddings = text_encoder.get_input_embeddings().weight[:, :],
+ optimized_embeddings = text_encoder.get_input_embeddings().weight[~index_no_updates, :], 
  train_inpainting=train_inpainting,
  t_mutliplier=0.8,
  mixed_precision=True,
@@ -683,6 +736,12 @@ def perform_tuning(
  index_no_updates
  ] = orig_embeds_params[index_no_updates]
 
+ if global_step % 100 == 0:
+ optimizing_embeds = text_encoder.get_input_embeddings().weight[~index_no_updates]
+ print("------------------------------")
+ for i, t in enumerate(optimizing_embeds):
+ print_most_similar_tokens(tokenizer, t, text_encoder)
+
 
  global_step += 1
 
@@ -696,7 +755,7 @@ def perform_tuning(
  placeholder_token_ids=placeholder_token_ids,
  placeholder_tokens=placeholder_tokens,
  save_path=os.path.join(
- save_path, f"step_{global_step}.safetensors"
+ save_path, f"step_{global_step:04d}.safetensors"
  ),
  target_replace_module_text=lora_clip_target_modules,
  target_replace_module_unet=lora_unet_target_modules,
@@ -706,16 +765,15 @@ def perform_tuning(
  .mean()
  .item()
  )
-
  print("LORA Unet Moved", moved)
+
  moved = (
  torch.tensor(
  list(itertools.chain(*inspect_lora(text_encoder).values()))
  )
  .mean()
  .item()
  )
-
  print("LORA CLIP Moved", moved)
 
  if log_wandb:
@@ -778,6 +836,7 @@ def train(
  placeholder_tokens: str = "",
  placeholder_token_at_data: Optional[str] = None,
  initializer_tokens: Optional[str] = None,
+ load_pretrained_inversion_embeddings_path: Optional[str] = None,
  seed: int = 42,
  resolution: int = 512,
  color_jitter: bool = True,
@@ -788,7 +847,8 @@ def train(
  save_steps: int = 100,
  gradient_accumulation_steps: int = 4,
  gradient_checkpointing: bool = False,
- lora_rank: int = 4,
+ lora_rank_unet: int = 4,
+ lora_rank_text_encoder: int = 4,
  lora_unet_target_modules={"CrossAttention", "Attention", "GEGLU"},
  lora_clip_target_modules={"CLIPAttention"},
  lora_dropout_p: float = 0.0,
@@ -825,6 +885,10 @@ def train(
  script_start_time = time.time()
  torch.manual_seed(seed)
 
+ if use_template == "person" and not use_face_segmentation_condition:
+ print("### WARNING ### : Using person template without face segmentation condition")
+ print("When training people, it is highly recommended to use face segmentation condition!!")
+
  # Get a dict with all the arguments:
  args_dict = locals()
 
@@ -841,7 +905,7 @@ def train(
 
  if output_dir is not None:
  os.makedirs(output_dir, exist_ok=True)
- # print(placeholder_tokens, initializer_tokens)
+
  if len(placeholder_tokens) == 0:
  placeholder_tokens = []
  print("PTI : Placeholder Tokens not given, using null token")
@@ -874,6 +938,7 @@ def train(
 
  print("PTI : Placeholder Tokens", placeholder_tokens)
  print("PTI : Initializer Tokens", initializer_tokens)
+ print("PTI : Token Map: ", token_map)
 
  # get the models
  text_encoder, vae, unet, tokenizer, placeholder_token_ids = get_models(
@@ -886,7 +951,8 @@ def train(
  )
 
  noise_scheduler = DDPMScheduler.from_config(
- pretrained_model_name_or_path, subfolder="scheduler"
+ pretrained_model_name_or_path, subfolder="scheduler", 
+ local_files_only = True,
  )
 
  if gradient_checkpointing:
@@ -925,8 +991,6 @@ def train(
  train_inpainting=train_inpainting,
  )
 
- train_dataset.blur_amount = 200
-
  if train_inpainting:
  assert not cached_latents, "Cached latents not supported for inpainting"
 
@@ -963,7 +1027,7 @@ def train(
  vae = None
 
  # STEP 1 : Perform Inversion
- if perform_inversion and not cached_latents:
+ if perform_inversion and not cached_latents and (load_pretrained_inversion_embeddings_path is None):
  preview_training_batch(train_dataloader, "inversion")
 
  print("PTI : Performing Inversion")
@@ -1014,34 +1078,44 @@ def train(
  del ti_optimizer
  print("############### Inversion Done ###############")
 
+ elif load_pretrained_inversion_embeddings_path is not None:
+
+ print("PTI : Loading pretrained inversion embeddings..")
+ from safetensors.torch import safe_open
+ # Load the pretrained embeddings from the lora file:
+ safeloras = safe_open(load_pretrained_inversion_embeddings_path, framework="pt", device="cpu")
+ #monkeypatch_or_replace_safeloras(pipe, safeloras)
+ tok_dict = parse_safeloras_embeds(safeloras)
+ apply_learned_embed_in_clip(
+ tok_dict,
+ text_encoder,
+ tokenizer,
+ idempotent=True,
+ )
+
  # Next perform Tuning with LoRA:
  if not use_extended_lora:
  unet_lora_params, _ = inject_trainable_lora(
  unet,
- r=lora_rank,
+ r=lora_rank_unet,
  target_replace_module=lora_unet_target_modules,
  dropout_p=lora_dropout_p,
  scale=lora_scale,
  )
  print("PTI : not use_extended_lora...")
+ print("PTI : Will replace modules: ", lora_unet_target_modules)
  else:
  print("PTI : USING EXTENDED UNET!!!")
  lora_unet_target_modules = (
  lora_unet_target_modules | UNET_EXTENDED_TARGET_REPLACE
  )
  print("PTI : Will replace modules: ", lora_unet_target_modules)
  unet_lora_params, _ = inject_trainable_lora_extended(
- unet, r=lora_rank, target_replace_module=lora_unet_target_modules
+ unet, r=lora_rank_unet, target_replace_module=lora_unet_target_modules
  )
 
- n_optimizable_unet_params = sum(
- [el.numel() for el in itertools.chain(*unet_lora_params)]
- )
- print("PTI : n_optimizable_unet_params: ", n_optimizable_unet_params)
-
- print(f"PTI : has {len(unet_lora_params)} lora")
- print("PTI : Before training:")
- inspect_lora(unet)
+ #n_optimizable_unet_params = sum([el.numel() for el in itertools.chain(*unet_lora_params)])
+ #print("PTI : Number of optimizable UNET parameters: ", n_optimizable_unet_params)
 
  params_to_optimize = [
  {"params": itertools.chain(*unet_lora_params), "lr": unet_lr},
@@ -1073,15 +1147,15 @@ def train(
  text_encoder_lora_params, _ = inject_trainable_lora(
  text_encoder,
  target_replace_module=lora_clip_target_modules,
- r=lora_rank,
+ r=lora_rank_text_encoder,
  )
  params_to_optimize += [
- {
- "params": itertools.chain(*text_encoder_lora_params),
- "lr": text_encoder_lr,
- }
+ {"params": itertools.chain(*text_encoder_lora_params),
+ "lr": text_encoder_lr}
  ]
- inspect_lora(text_encoder)
+
+ #n_optimizable_text_Encoder_params = sum( [el.numel() for el in itertools.chain(*text_encoder_lora_params)])
+ #print("PTI : Number of optimizable text-encoder parameters: ", n_optimizable_text_Encoder_params)
 
  lora_optimizers = optim.AdamW(params_to_optimize, weight_decay=weight_decay_lora)
 
@@ -1090,8 +1164,6 @@ def train(
  print("Training text encoder!")
  text_encoder.train()
 
- train_dataset.blur_amount = 70
-
  lr_scheduler_lora = get_scheduler(
  lr_scheduler_lora,
  optimizer=lora_optimizers,
@@ -1101,6 +1173,22 @@ def train(
  if not cached_latents: 
  preview_training_batch(train_dataloader, "tuning")
 
+ #print("PTI : n_optimizable_unet_params: ", n_optimizable_unet_params)
+ print(f"PTI : has {len(unet_lora_params)} lora")
+ print("PTI : Before training:")
+
+ moved = (
+ torch.tensor(list(itertools.chain(*inspect_lora(unet).values())))
+ .mean().item())
+ print(f"LORA Unet Moved {moved:.6f}")
+
+
+ moved = (
+ torch.tensor(
+ list(itertools.chain(*inspect_lora(text_encoder).values()))
+ ).mean().item())
+ print(f"LORA CLIP Moved {moved:.6f}")
+
  perform_tuning(
  unet,
  vae,
@@ -1132,6 +1220,8 @@ def train(
  training_time = time.time() - script_start_time
  print(f"Training time: {training_time/60:.1f} minutes")
  args_dict["training_time_s"] = int(training_time)
+ args_dict["n_epochs"] = math.ceil(max_train_steps_tuning / len(train_dataloader.dataset))
+ args_dict["n_training_imgs"] = len(train_dataloader.dataset)
 
  # Save the args_dict to the output directory as a json file:
  with open(os.path.join(output_dir, "lora_training_args.json"), "w") as f: