阿里通义 Qwen3-TTS 家族上新两款 AI 模型：声音不仅能复制，还可以定制

IT之家 2026-03-10 09:00:01

A+ A-

阿里通义今日宣布推出两款新的TTS模型：音色创造模型Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash。

音色创造模型Qwen3-TTS-VD-Flash支持复杂自然语言指令输入，能够实现对音色、韵律、情感和人设等的精细化调控。用户可以自由定义想要的音色，不再局限于已有音色的克隆或固定预设音色的选择。该模型在InstructTTS-Eval中的综合表现优于GPT-4o-mini-tts和Mimo-audio-7b-instruct，在角色扮演测试中也超越了Gemini-2.5-pro-preview-tts。

音色克隆模型Qwen3-TTS-VC-Flash则能在3秒级别内完成音色克隆，并基于此生成包括中文、英文、德语在内的十种主流语言的音频。在MiniMax TTS Multilingual Test Set上，其平均词错误率（WER）低于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。

这两款模型都具备高表现力的拟人化音色，能根据文本语义自动调节语气节奏，呈现自然生动的效果。同时，它们还拥有强大的文本解析能力，可处理复杂文本结构，准确提取关键信息，展现出良好的鲁棒性。

对于希望定制特定声音形象的用户来说，Qwen3-TTS-VD-Flash允许通过自然语言描述来创建个性化音色，无论是声学属性还是背景故事都可以作为输入条件。而Qwen3-TTS-VC-Flash不仅支持快速音色复制，还能确保多语言环境下的高质量语音合成。

更多关于这些功能的技术细节可通过访问阿里巴巴云官网获取相关API文档了解。

点击查看全文(剩余0%)

阿里通义 Qwen3-TTS 家族上新两款 AI 模型：声音不仅能复制，还可以定制

热点新闻

精彩推荐