数字中国 人工智能 汽车智驾 手机数码 更多 智慧家电 酷玩配件 科技创投 产业+ 攻略

阿里通义 Qwen3-TTS 家族上新两款 AI 模型:声音不仅能复制,还可以定制

IT之家 2026-03-10 09:00:01
A+ A-

阿里通义今日宣布推出两款新的TTS模型:音色创造模型Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash。

音色创造模型Qwen3-TTS-VD-Flash支持复杂自然语言指令输入,能够实现对音色、韵律、情感和人设等的精细化调控。用户可以自由定义想要的音色,不再局限于已有音色的克隆或固定预设音色的选择。该模型在InstructTTS-Eval中的综合表现优于GPT-4o-mini-tts和Mimo-audio-7b-instruct,在角色扮演测试中也超越了Gemini-2.5-pro-preview-tts。

音色克隆模型Qwen3-TTS-VC-Flash则能在3秒级别内完成音色克隆,并基于此生成包括中文、英文、德语在内的十种主流语言的音频。在MiniMax TTS Multilingual Test Set上,其平均词错误率(WER)低于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。

这两款模型都具备高表现力的拟人化音色,能根据文本语义自动调节语气节奏,呈现自然生动的效果。同时,它们还拥有强大的文本解析能力,可处理复杂文本结构,准确提取关键信息,展现出良好的鲁棒性。

对于希望定制特定声音形象的用户来说,Qwen3-TTS-VD-Flash允许通过自然语言描述来创建个性化音色,无论是声学属性还是背景故事都可以作为输入条件。而Qwen3-TTS-VC-Flash不仅支持快速音色复制,还能确保多语言环境下的高质量语音合成。

更多关于这些功能的技术细节可通过访问阿里巴巴云官网获取相关API文档了解。

点击查看全文(剩余0%)

热点新闻

精彩推荐

加载更多……