преди 1 година · e84d72a4d9
--- a/README.md
+++ b/README.md
@@ -132,7 +132,7 @@ cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B', load_jit=False, load
 
				 
			
 
				 # NOTE if you want to reproduce the results on https://funaudiollm.github.io/cosyvoice2, please add text_frontend=False during inference
			
 
				 # zero_shot usage
			
 
				-prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
			
 
				+prompt_speech_16k = load_wav('./asset/zero_shot_prompt.wav', 16000)
			
 
				 for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物，那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐，笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):
			
 
				     torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)
			
 
				 
			
@@ -156,16 +156,16 @@ for i, j in enumerate(cosyvoice.inference_sft('你好，我是通义生成式语
 
				 
			
 
				 cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M') # or change to pretrained_models/CosyVoice-300M-25Hz for 25Hz inference
			
 
				 # zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
			
 
				-prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
			
 
				+prompt_speech_16k = load_wav('./asset/zero_shot_prompt.wav', 16000)
			
 
				 for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物，那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐，笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):
			
 
				     torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)
			
 
				 # cross_lingual usage
			
 
				-prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
			
 
				+prompt_speech_16k = load_wav('./asset/cross_lingual_prompt.wav', 16000)
			
 
				 for i, j in enumerate(cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k, stream=False)):
			
 
				     torchaudio.save('cross_lingual_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)
			
 
				 # vc usage
			
 
				-prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
			
 
				-source_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
			
 
				+prompt_speech_16k = load_wav('./asset/zero_shot_prompt.wav', 16000)
			
 
				+source_speech_16k = load_wav('./asset/cross_lingual_prompt.wav', 16000)
			
 
				 for i, j in enumerate(cosyvoice.inference_vc(source_speech_16k, prompt_speech_16k, stream=False)):
			
 
				     torchaudio.save('vc_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)
			
 
				 
			
--- a/cross_lingual_prompt.wav
+++ b/cross_lingual_prompt.wav
--- a/runtime/python/fastapi/client.py
+++ b/runtime/python/fastapi/client.py
@@ -79,7 +79,7 @@ if __name__ == "__main__":
 
				                         default='希望你以后能够做的比我还好呦。')
			
 
				     parser.add_argument('--prompt_wav',
			
 
				                         type=str,
			
 
				-                        default='../../../zero_shot_prompt.wav')
			
 
				+                        default='../../../asset/zero_shot_prompt.wav')
			
 
				     parser.add_argument('--instruct_text',
			
 
				                         type=str,
			
 
				                         default='Theo \'Crimson\', is a fiery, passionate rebel leader. \
			
--- a/runtime/python/grpc/client.py
+++ b/runtime/python/grpc/client.py
@@ -93,7 +93,7 @@ if __name__ == "__main__":
 
				                         default='希望你以后能够做的比我还好呦。')
			
 
				     parser.add_argument('--prompt_wav',
			
 
				                         type=str,
			
 
				-                        default='../../../zero_shot_prompt.wav')
			
 
				+                        default='../../../asset/zero_shot_prompt.wav')
			
 
				     parser.add_argument('--instruct_text',
			
 
				                         type=str,
			
 
				                         default='Theo \'Crimson\', is a fiery, passionate rebel leader. \
			
--- a/zero_shot_prompt.wav
+++ b/zero_shot_prompt.wav