VALL-E X具备出色的语音合成能力,仅需使用3秒钟未曾见过的说话者的录音作为声学提示,便能合成出高质量的个性化语音。这一特性使得即使母语讲者也能在另一种语言中执行语音合成。目前,VALL-E X支持三种语言(英语、中文、日语)的零尝试、单语/跨语言文本到语音功能,为语音合成领域带来了卓越的性能和多样性。
上传一个持续3到10秒的语音作为音频提示,并键入您想要合成的文本。
模型将用您的音频提示相同的声音合成给定文本的语音。
模型还倾向于保留您给定语音的情感和声学环境。
VALL-E X具备出色的语音合成能力,仅需使用3秒钟未曾见过的说话者的录音作为声学提示,便能合成出高质量的个性化语音。这一特性使得即使母语讲者也能在另一种语言中执行语音合成。目前,VALL-E X支持三种语言(英语、中文、日语)的零尝试、单语/跨语言文本到语音功能,为语音合成领域带来了卓越的性能和多样性。
上传一个持续3到10秒的语音作为音频提示,并键入您想要合成的文本。
模型将用您的音频提示相同的声音合成给定文本的语音。
模型还倾向于保留您给定语音的情感和声学环境。