Spaces:

darksakura
/

l1

Running

App Files Files Community

darksakura commited on Jul 27, 2023

Commit

5b74e25

•

1 Parent(s): 46bab9a

Upload 85 files

Browse files

Files changed (36) hide show

inference/__pycache__/__init__.cpython-38.pyc +0 -0
inference/__pycache__/infer_tool_webui.cpython-38.pyc +0 -0
inference/__pycache__/slicer.cpython-38.pyc +0 -0
inference/infer_tool.py +1 -0
inference/infer_tool_webui.py +22 -12
modules/F0Predictor/__pycache__/CrepeF0Predictor.cpython-38.pyc +0 -0
modules/F0Predictor/__pycache__/F0Predictor.cpython-38.pyc +0 -0
modules/F0Predictor/__pycache__/FCPEF0Predictor.cpython-38.pyc +0 -0
modules/F0Predictor/__pycache__/HarvestF0Predictor.cpython-38.pyc +0 -0
modules/F0Predictor/__pycache__/PMF0Predictor.cpython-38.pyc +0 -0
modules/F0Predictor/__pycache__/RMVPEF0Predictor.cpython-38.pyc +0 -0
modules/F0Predictor/__pycache__/__init__.cpython-38.pyc +0 -0
modules/F0Predictor/__pycache__/crepe.cpython-38.pyc +0 -0
modules/F0Predictor/fcpe/__pycache__/__init__.cpython-38.pyc +0 -0
modules/F0Predictor/fcpe/__pycache__/model.cpython-38.pyc +0 -0
modules/F0Predictor/fcpe/__pycache__/nvSTFT.cpython-38.pyc +0 -0
modules/F0Predictor/fcpe/__pycache__/pcmer.cpython-38.pyc +0 -0
modules/F0Predictor/fcpe/model.py +25 -3
modules/F0Predictor/rmvpe/__pycache__/__init__.cpython-38.pyc +0 -0
modules/F0Predictor/rmvpe/__pycache__/constants.cpython-38.pyc +0 -0
modules/F0Predictor/rmvpe/__pycache__/deepunet.cpython-38.pyc +0 -0
modules/F0Predictor/rmvpe/__pycache__/inference.cpython-38.pyc +0 -0
modules/F0Predictor/rmvpe/__pycache__/model.cpython-38.pyc +0 -0
modules/F0Predictor/rmvpe/__pycache__/seq.cpython-38.pyc +0 -0
modules/F0Predictor/rmvpe/__pycache__/spec.cpython-38.pyc +0 -0
modules/F0Predictor/rmvpe/__pycache__/utils.cpython-38.pyc +0 -0
modules/__pycache__/DSConv.cpython-38.pyc +0 -0
modules/__pycache__/__init__.cpython-38.pyc +0 -0
modules/__pycache__/attentions.cpython-38.pyc +0 -0
modules/__pycache__/commons.cpython-38.pyc +0 -0
modules/__pycache__/enhancer.cpython-38.pyc +0 -0
modules/__pycache__/losses.cpython-38.pyc +0 -0
modules/__pycache__/mel_processing.cpython-38.pyc +0 -0
modules/__pycache__/modules.cpython-38.pyc +0 -0
pretrain/meta.py +8 -0
train_diff.py +4 -3

inference/__pycache__/__init__.cpython-38.pyc CHANGED Viewed

Binary files a/inference/__pycache__/__init__.cpython-38.pyc and b/inference/__pycache__/__init__.cpython-38.pyc differ

inference/__pycache__/infer_tool_webui.cpython-38.pyc CHANGED Viewed

Binary files a/inference/__pycache__/infer_tool_webui.cpython-38.pyc and b/inference/__pycache__/infer_tool_webui.cpython-38.pyc differ

inference/__pycache__/slicer.cpython-38.pyc CHANGED Viewed

Binary files a/inference/__pycache__/slicer.cpython-38.pyc and b/inference/__pycache__/slicer.cpython-38.pyc differ

inference/infer_tool.py CHANGED Viewed

@@ -267,6 +267,7 @@ class Svc(object):
               second_encoding = False,
               loudness_envelope_adjustment = 1
               ):
         wav, sr = torchaudio.load(raw_path)
         if not hasattr(self,"audio_resample_transform") or self.audio16k_resample_transform.orig_freq != sr:
             self.audio_resample_transform = torchaudio.transforms.Resample(sr,self.target_sample)

               second_encoding = False,
               loudness_envelope_adjustment = 1
               ):
+        torchaudio.set_audio_backend("soundfile")
         wav, sr = torchaudio.load(raw_path)
         if not hasattr(self,"audio_resample_transform") or self.audio16k_resample_transform.orig_freq != sr:
             self.audio_resample_transform = torchaudio.transforms.Resample(sr,self.target_sample)

inference/infer_tool_webui.py CHANGED Viewed

@@ -152,6 +152,7 @@ class Svc(object):
                     self.target_sample = self.diffusion_args.data.sampling_rate
                     self.hop_size = self.diffusion_args.data.block_size
                     self.spk2id = self.diffusion_args.spk
                     self.speech_encoder = self.diffusion_args.data.encoder
                     self.unit_interpolate_mode = self.diffusion_args.data.unit_interpolate_mode if self.diffusion_args.data.unit_interpolate_mode is not None else 'left'
                 if spk_mix_enable:
@@ -203,9 +204,10 @@ class Svc(object):
     def get_unit_f0(self, wav, tran, cluster_infer_ratio, speaker, f0_filter ,f0_predictor,cr_threshold=0.05):
-        f0_predictor_object = utils.get_f0_predictor(f0_predictor,hop_length=self.hop_size,sampling_rate=self.target_sample,device=self.dev,threshold=cr_threshold)
-        f0, uv = f0_predictor_object.compute_f0_uv(wav)
         if f0_filter and sum(f0) == 0:
             raise F0FilterException("No voice detected")
         f0 = torch.FloatTensor(f0).to(self.dev)
@@ -215,21 +217,24 @@ class Svc(object):
         f0 = f0.unsqueeze(0)
         uv = uv.unsqueeze(0)
-        wav16k = librosa.resample(wav, orig_sr=self.target_sample, target_sr=16000)
-        wav16k = torch.from_numpy(wav16k).to(self.dev)
         c = self.hubert_model.encoder(wav16k)
         c = utils.repeat_expand_2d(c.squeeze(0), f0.shape[1],self.unit_interpolate_mode)
         if cluster_infer_ratio !=0:
             if self.feature_retrieval:
                 speaker_id = self.spk2id.get(speaker)
-                if speaker_id is None:
-                    raise RuntimeError("The name you entered is not in the speaker list!")
                 if not speaker_id and type(speaker) is int:
                     if len(self.spk2id.__dict__) >= speaker:
                         speaker_id = speaker
                 feature_index = self.cluster_model[speaker_id]
-                feat_np = c.transpose(0,1).cpu().numpy()
                 if self.big_npy is None or self.now_spk_id != speaker_id:
                    self.big_npy = feature_index.reconstruct_n(0, feature_index.ntotal)
                    self.now_spk_id = speaker_id
@@ -248,7 +253,7 @@ class Svc(object):
         c = c.unsqueeze(0)
         return c, f0, uv
     def infer(self, speaker, tran, raw_path,
               cluster_infer_ratio=0,
               auto_predict_f0=False,
@@ -263,7 +268,11 @@ class Svc(object):
               second_encoding = False,
               loudness_envelope_adjustment = 1
               ):
-        wav, sr = librosa.load(raw_path, sr=self.target_sample)
         if spk_mix:
             c, f0, uv = self.get_unit_f0(wav, tran, 0, None, f0_filter,f0_predictor,cr_threshold=cr_threshold)
             n_frames = f0.size(1)
@@ -299,8 +308,9 @@ class Svc(object):
             if self.only_diffusion or self.shallow_diffusion:
                 vol = self.volume_extractor.extract(audio[None,:])[None,:,None].to(self.dev) if vol is None else vol[:,:,None]
                 if self.shallow_diffusion and second_encoding:
-                    audio16k = librosa.resample(audio.detach().cpu().numpy(), orig_sr=self.target_sample, target_sr=16000)
-                    audio16k = torch.from_numpy(audio16k).to(self.dev)
                     c = self.hubert_model.encoder(audio16k)
                     c = utils.repeat_expand_2d(c.squeeze(0), f0.shape[1],self.unit_interpolate_mode)
                 f0 = f0[:,:,None]

                     self.target_sample = self.diffusion_args.data.sampling_rate
                     self.hop_size = self.diffusion_args.data.block_size
                     self.spk2id = self.diffusion_args.spk
+                    self.dtype = torch.float32
                     self.speech_encoder = self.diffusion_args.data.encoder
                     self.unit_interpolate_mode = self.diffusion_args.data.unit_interpolate_mode if self.diffusion_args.data.unit_interpolate_mode is not None else 'left'
                 if spk_mix_enable:
     def get_unit_f0(self, wav, tran, cluster_infer_ratio, speaker, f0_filter ,f0_predictor,cr_threshold=0.05):
+        if not hasattr(self,"f0_predictor_object") or self.f0_predictor_object is None or f0_predictor != self.f0_predictor_object.name:
+            self.f0_predictor_object = utils.get_f0_predictor(f0_predictor,hop_length=self.hop_size,sampling_rate=self.target_sample,device=self.dev,threshold=cr_threshold)
+        f0, uv = self.f0_predictor_object.compute_f0_uv(wav)
         if f0_filter and sum(f0) == 0:
             raise F0FilterException("No voice detected")
         f0 = torch.FloatTensor(f0).to(self.dev)
         f0 = f0.unsqueeze(0)
         uv = uv.unsqueeze(0)
+        wav = torch.from_numpy(wav).to(self.dev)
+        if not hasattr(self,"audio16k_resample_transform"):
+            self.audio16k_resample_transform = torchaudio.transforms.Resample(self.target_sample, 16000).to(self.dev)
+        wav16k = self.audio16k_resample_transform(wav[None,:])[0]
         c = self.hubert_model.encoder(wav16k)
         c = utils.repeat_expand_2d(c.squeeze(0), f0.shape[1],self.unit_interpolate_mode)
         if cluster_infer_ratio !=0:
             if self.feature_retrieval:
                 speaker_id = self.spk2id.get(speaker)
                 if not speaker_id and type(speaker) is int:
                     if len(self.spk2id.__dict__) >= speaker:
                         speaker_id = speaker
+                if speaker_id is None:
+                    raise RuntimeError("The name you entered is not in the speaker list!")
                 feature_index = self.cluster_model[speaker_id]
+                feat_np = np.ascontiguousarray(c.transpose(0,1).cpu().numpy())
                 if self.big_npy is None or self.now_spk_id != speaker_id:
                    self.big_npy = feature_index.reconstruct_n(0, feature_index.ntotal)
                    self.now_spk_id = speaker_id
         c = c.unsqueeze(0)
         return c, f0, uv
     def infer(self, speaker, tran, raw_path,
               cluster_infer_ratio=0,
               auto_predict_f0=False,
               second_encoding = False,
               loudness_envelope_adjustment = 1
               ):
+        torchaudio.set_audio_backend("soundfile")
+        wav, sr = torchaudio.load(raw_path)
+        if not hasattr(self,"audio_resample_transform") or self.audio16k_resample_transform.orig_freq != sr:
+            self.audio_resample_transform = torchaudio.transforms.Resample(sr,self.target_sample)
+        wav = self.audio_resample_transform(wav).numpy()[0]
         if spk_mix:
             c, f0, uv = self.get_unit_f0(wav, tran, 0, None, f0_filter,f0_predictor,cr_threshold=cr_threshold)
             n_frames = f0.size(1)
             if self.only_diffusion or self.shallow_diffusion:
                 vol = self.volume_extractor.extract(audio[None,:])[None,:,None].to(self.dev) if vol is None else vol[:,:,None]
                 if self.shallow_diffusion and second_encoding:
+                    if not hasattr(self,"audio16k_resample_transform"):
+                        self.audio16k_resample_transform = torchaudio.transforms.Resample(self.target_sample, 16000).to(self.dev)
+                    audio16k = self.audio16k_resample_transform(audio[None,:])[0]
                     c = self.hubert_model.encoder(audio16k)
                     c = utils.repeat_expand_2d(c.squeeze(0), f0.shape[1],self.unit_interpolate_mode)
                 f0 = f0[:,:,None]

modules/F0Predictor/__pycache__/CrepeF0Predictor.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/__pycache__/CrepeF0Predictor.cpython-38.pyc and b/modules/F0Predictor/__pycache__/CrepeF0Predictor.cpython-38.pyc differ

modules/F0Predictor/__pycache__/F0Predictor.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/__pycache__/F0Predictor.cpython-38.pyc and b/modules/F0Predictor/__pycache__/F0Predictor.cpython-38.pyc differ

modules/F0Predictor/__pycache__/FCPEF0Predictor.cpython-38.pyc ADDED Viewed

Binary file (3.35 kB). View file

modules/F0Predictor/__pycache__/HarvestF0Predictor.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/__pycache__/HarvestF0Predictor.cpython-38.pyc and b/modules/F0Predictor/__pycache__/HarvestF0Predictor.cpython-38.pyc differ

modules/F0Predictor/__pycache__/PMF0Predictor.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/__pycache__/PMF0Predictor.cpython-38.pyc and b/modules/F0Predictor/__pycache__/PMF0Predictor.cpython-38.pyc differ

modules/F0Predictor/__pycache__/RMVPEF0Predictor.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/__pycache__/RMVPEF0Predictor.cpython-38.pyc and b/modules/F0Predictor/__pycache__/RMVPEF0Predictor.cpython-38.pyc differ

modules/F0Predictor/__pycache__/__init__.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/__pycache__/__init__.cpython-38.pyc and b/modules/F0Predictor/__pycache__/__init__.cpython-38.pyc differ

modules/F0Predictor/__pycache__/crepe.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/__pycache__/crepe.cpython-38.pyc and b/modules/F0Predictor/__pycache__/crepe.cpython-38.pyc differ

modules/F0Predictor/fcpe/__pycache__/__init__.cpython-38.pyc ADDED Viewed

Binary file (254 Bytes). View file

modules/F0Predictor/fcpe/__pycache__/model.cpython-38.pyc ADDED Viewed

Binary file (8.08 kB). View file

modules/F0Predictor/fcpe/__pycache__/nvSTFT.cpython-38.pyc ADDED Viewed

Binary file (4.4 kB). View file

modules/F0Predictor/fcpe/__pycache__/pcmer.cpython-38.pyc ADDED Viewed

Binary file (11.5 kB). View file

modules/F0Predictor/fcpe/model.py CHANGED Viewed

@@ -84,13 +84,17 @@ class FCPE(nn.Module):
         self.dense_out = weight_norm(
             nn.Linear(n_chans, self.n_out))
-    def forward(self, mel, infer=True, gt_f0=None, return_hz_f0=False):
         """
         input:
             B x n_frames x n_unit
         return:
             dict of B x n_frames x feat
         """
         if self.use_input_conv:
             x = self.stack(mel.transpose(1, 2)).transpose(1, 2)
         else:
@@ -108,7 +112,7 @@ class FCPE(nn.Module):
                 loss_all = loss_all + l2_regularization(model=self, l2_alpha=self.loss_l2_regularization_scale)
             x = loss_all
         if infer:
-            x = self.cents_decoder(x)
             x = self.cent_to_f0(x)
             if not return_hz_f0:
                 x = (1 + x / 700).log()
@@ -127,6 +131,25 @@ class FCPE(nn.Module):
             return rtn, confident
         else:
             return rtn
     def cent_to_f0(self, cent):
         return 10. * 2 ** (cent / 1200.)
@@ -165,7 +188,6 @@ class FCPEInfer:
             f0_min=self.args.model.f0_min,
             confidence=self.args.model.confidence,
         )
-        ckpt = torch.load(model_path, map_location=torch.device(self.device))
         model.to(self.device).to(self.dtype)
         model.load_state_dict(ckpt['model'])
         model.eval()

         self.dense_out = weight_norm(
             nn.Linear(n_chans, self.n_out))
+    def forward(self, mel, infer=True, gt_f0=None, return_hz_f0=False, cdecoder = "local_argmax"):
         """
         input:
             B x n_frames x n_unit
         return:
             dict of B x n_frames x feat
         """
+        if cdecoder == "argmax":
+            self.cdecoder = self.cents_decoder
+        elif cdecoder == "local_argmax":
+            self.cdecoder = self.cents_local_decoder
         if self.use_input_conv:
             x = self.stack(mel.transpose(1, 2)).transpose(1, 2)
         else:
                 loss_all = loss_all + l2_regularization(model=self, l2_alpha=self.loss_l2_regularization_scale)
             x = loss_all
         if infer:
+            x = self.cdecoder(x)
             x = self.cent_to_f0(x)
             if not return_hz_f0:
                 x = (1 + x / 700).log()
             return rtn, confident
         else:
             return rtn
+    def cents_local_decoder(self, y, mask=True):
+        B, N, _ = y.size()
+        ci = self.cent_table[None, None, :].expand(B, N, -1)
+        confident, max_index = torch.max(y, dim=-1, keepdim=True)
+        local_argmax_index = torch.arange(0,8).to(max_index.device) + (max_index - 4)
+        local_argmax_index[local_argmax_index<0] = 0
+        local_argmax_index[local_argmax_index>=self.n_out] = self.n_out - 1
+        ci_l = torch.gather(ci,-1,local_argmax_index)
+        y_l = torch.gather(y,-1,local_argmax_index)
+        rtn = torch.sum(ci_l * y_l, dim=-1, keepdim=True) / torch.sum(y_l, dim=-1, keepdim=True)  # cents: [B,N,1]
+        if mask:
+            confident_mask = torch.ones_like(confident)
+            confident_mask[confident <= self.threshold] = float("-INF")
+            rtn = rtn * confident_mask
+        if self.confidence:
+            return rtn, confident
+        else:
+            return rtn
     def cent_to_f0(self, cent):
         return 10. * 2 ** (cent / 1200.)
             f0_min=self.args.model.f0_min,
             confidence=self.args.model.confidence,
         )
         model.to(self.device).to(self.dtype)
         model.load_state_dict(ckpt['model'])
         model.eval()

modules/F0Predictor/rmvpe/__pycache__/__init__.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/rmvpe/__pycache__/__init__.cpython-38.pyc and b/modules/F0Predictor/rmvpe/__pycache__/__init__.cpython-38.pyc differ

modules/F0Predictor/rmvpe/__pycache__/constants.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/rmvpe/__pycache__/constants.cpython-38.pyc and b/modules/F0Predictor/rmvpe/__pycache__/constants.cpython-38.pyc differ

modules/F0Predictor/rmvpe/__pycache__/deepunet.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/rmvpe/__pycache__/deepunet.cpython-38.pyc and b/modules/F0Predictor/rmvpe/__pycache__/deepunet.cpython-38.pyc differ

modules/F0Predictor/rmvpe/__pycache__/inference.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/rmvpe/__pycache__/inference.cpython-38.pyc and b/modules/F0Predictor/rmvpe/__pycache__/inference.cpython-38.pyc differ

modules/F0Predictor/rmvpe/__pycache__/model.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/rmvpe/__pycache__/model.cpython-38.pyc and b/modules/F0Predictor/rmvpe/__pycache__/model.cpython-38.pyc differ

modules/F0Predictor/rmvpe/__pycache__/seq.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/rmvpe/__pycache__/seq.cpython-38.pyc and b/modules/F0Predictor/rmvpe/__pycache__/seq.cpython-38.pyc differ

modules/F0Predictor/rmvpe/__pycache__/spec.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/rmvpe/__pycache__/spec.cpython-38.pyc and b/modules/F0Predictor/rmvpe/__pycache__/spec.cpython-38.pyc differ

modules/F0Predictor/rmvpe/__pycache__/utils.cpython-38.pyc CHANGED Viewed

Binary files a/modules/F0Predictor/rmvpe/__pycache__/utils.cpython-38.pyc and b/modules/F0Predictor/rmvpe/__pycache__/utils.cpython-38.pyc differ

modules/__pycache__/DSConv.cpython-38.pyc CHANGED Viewed

Binary files a/modules/__pycache__/DSConv.cpython-38.pyc and b/modules/__pycache__/DSConv.cpython-38.pyc differ

modules/__pycache__/__init__.cpython-38.pyc CHANGED Viewed

Binary files a/modules/__pycache__/__init__.cpython-38.pyc and b/modules/__pycache__/__init__.cpython-38.pyc differ

modules/__pycache__/attentions.cpython-38.pyc CHANGED Viewed

Binary files a/modules/__pycache__/attentions.cpython-38.pyc and b/modules/__pycache__/attentions.cpython-38.pyc differ

modules/__pycache__/commons.cpython-38.pyc CHANGED Viewed

Binary files a/modules/__pycache__/commons.cpython-38.pyc and b/modules/__pycache__/commons.cpython-38.pyc differ

modules/__pycache__/enhancer.cpython-38.pyc CHANGED Viewed

Binary files a/modules/__pycache__/enhancer.cpython-38.pyc and b/modules/__pycache__/enhancer.cpython-38.pyc differ

modules/__pycache__/losses.cpython-38.pyc CHANGED Viewed

Binary files a/modules/__pycache__/losses.cpython-38.pyc and b/modules/__pycache__/losses.cpython-38.pyc differ

modules/__pycache__/mel_processing.cpython-38.pyc CHANGED Viewed

Binary files a/modules/__pycache__/mel_processing.cpython-38.pyc and b/modules/__pycache__/mel_processing.cpython-38.pyc differ

modules/__pycache__/modules.cpython-38.pyc CHANGED Viewed

Binary files a/modules/__pycache__/modules.cpython-38.pyc and b/modules/__pycache__/modules.cpython-38.pyc differ

pretrain/meta.py CHANGED Viewed

@@ -12,9 +12,17 @@ def download_dict():
             "url": "https://github.com/bshall/hubert/releases/download/v0.1/hubert-soft-0d54a1f4.pt",
             "output": "./pretrain/hubert-soft-0d54a1f4.pt"
         },
         "whisper-ppg": {
             "url": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
             "output": "./pretrain/medium.pt"
         }
     }

             "url": "https://github.com/bshall/hubert/releases/download/v0.1/hubert-soft-0d54a1f4.pt",
             "output": "./pretrain/hubert-soft-0d54a1f4.pt"
         },
+        "whisper-ppg-small": {
+            "url": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
+            "output": "./pretrain/small.pt"
+        },
         "whisper-ppg": {
             "url": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
             "output": "./pretrain/medium.pt"
+        },
+        "whisper-ppg-large": {
+            "url": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
+            "output": "./pretrain/large-v2.pt"
         }
     }

train_diff.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import argparse
 import torch
 from torch.optim import lr_scheduler
 from diffusion.data_loaders import get_data_loaders
@@ -28,8 +29,8 @@ if __name__ == '__main__':
     # load config
     args = utils.load_config(cmd.config)
-    print(' > config:', cmd.config)
-    print(' >    exp:', args.env.expdir)
     # load vocoder
     vocoder = Vocoder(args.vocoder.type, args.vocoder.ckpt, device=args.device)
@@ -47,7 +48,7 @@ if __name__ == '__main__':
                 args.model.k_step_max
                 )
-    print(f' > INFO: now model timesteps is {model.timesteps}, and k_step_max is {model.k_step_max}')
     # load parameters
     optimizer = torch.optim.AdamW(model.parameters())

 import argparse
 import torch
+from loguru import logger
 from torch.optim import lr_scheduler
 from diffusion.data_loaders import get_data_loaders
     # load config
     args = utils.load_config(cmd.config)
+    logger.info(' > config:'+ cmd.config)
+    logger.info(' > exp:'+ args.env.expdir)
     # load vocoder
     vocoder = Vocoder(args.vocoder.type, args.vocoder.ckpt, device=args.device)
                 args.model.k_step_max
                 )
+    logger.info(f' > Now model timesteps is {model.timesteps}, and k_step_max is {model.k_step_max}')
     # load parameters
     optimizer = torch.optim.AdamW(model.parameters())