1 năm trước cách đây · 95051e5761
--- a/cosyvoice/cli/model.py
+++ b/cosyvoice/cli/model.py
@@ -40,6 +40,8 @@ class CosyVoiceModel:
 
				         # hift cache
			
 
				         self.mel_cache_len = 20
			
 
				         self.source_cache_len = int(self.mel_cache_len * 256)
			
 
				+        # speech fade in out
			
 
				+        self.speech_window = np.hamming(2 * self.source_cache_len)
			
 
				         # rtf and decoding related
			
 
				         self.stream_scale_factor = 1
			
 
				         assert self.stream_scale_factor >= 1, 'stream_scale_factor should be greater than 1, change it according to your actual rtf'
			
@@ -114,13 +116,19 @@ class CosyVoiceModel:
 
				             self.mel_overlap_dict[uuid] = tts_mel[:, :, -self.mel_overlap_len:]
			
 
				             tts_mel = tts_mel[:, :, :-self.mel_overlap_len]
			
 
				             tts_speech, tts_source = self.hift.inference(mel=tts_mel, cache_source=hift_cache_source)
			
 
				-            self.hift_cache_dict[uuid] = {'source': tts_source[:, :, -self.source_cache_len:], 'mel': tts_mel[:, :, -self.mel_cache_len:]}
			
 
				+            if self.hift_cache_dict[uuid] is not None:
			
 
				+                tts_speech = fade_in_out(tts_speech, self.hift_cache_dict[uuid]['speech'], self.speech_window)
			
 
				+            self.hift_cache_dict[uuid] = {'mel': tts_mel[:, :, -self.mel_cache_len:],
			
 
				+                                          'source': tts_source[:, :, -self.source_cache_len:],
			
 
				+                                          'speech': tts_speech[:, -self.source_cache_len:]}
			
 
				             tts_speech = tts_speech[:, :-self.source_cache_len]
			
 
				         else:
			
 
				             if speed != 1.0:
			
 
				                 assert self.hift_cache_dict[uuid] is None, 'speed change only support non-stream inference mode'
			
 
				                 tts_mel = F.interpolate(tts_mel, size=int(tts_mel.shape[2] / speed), mode='linear')
			
 
				             tts_speech, tts_source = self.hift.inference(mel=tts_mel, cache_source=hift_cache_source)
			
 
				+            if self.hift_cache_dict[uuid] is not None:
			
 
				+                tts_speech = fade_in_out(tts_speech, self.hift_cache_dict[uuid]['speech'], self.speech_window)
			
 
				         return tts_speech
			
 
				 
			
 
				     def inference(self, text, flow_embedding, llm_embedding=torch.zeros(0, 192),
			
--- a/cosyvoice/utils/common.py
+++ b/cosyvoice/utils/common.py
@@ -139,6 +139,6 @@ def fade_in_out(fade_in_mel, fade_out_mel, window):
 
				     device = fade_in_mel.device
			
 
				     fade_in_mel, fade_out_mel = fade_in_mel.cpu(), fade_out_mel.cpu()
			
 
				     mel_overlap_len = int(window.shape[0] / 2)
			
 
				-    fade_in_mel[:, :, :mel_overlap_len] = fade_in_mel[:, :, :mel_overlap_len] * window[:mel_overlap_len] + \
			
 
				-        fade_out_mel[:, :, -mel_overlap_len:] * window[mel_overlap_len:]
			
 
				+    fade_in_mel[..., :mel_overlap_len] = fade_in_mel[..., :mel_overlap_len] * window[:mel_overlap_len] + \
			
 
				+        fade_out_mel[..., -mel_overlap_len:] * window[mel_overlap_len:]
			
 
				     return fade_in_mel.to(device)