97ms 出声! 3 秒克隆你的音色!
原推文:https://x.com/i/status/2014461755733508408
作者:@karminski-牙医
时间:2026-1-23 11:29:55
💡 核心观点
97ms 出声! 3 秒克隆你的音色! 阿里通义千问刚刚开源了 Qwen3-TTS 一系列端到端的语音合成大模型. (去年九月份我给大家录过Qwen3-TTS-Flash 的测试). 这个模型由于足够小, 所以可以做到端到端延迟只有 97ms, 输入一个字就能开始出声! 传统 TTS 方案要么是 LM+DiT 级联架构有信息瓶颈, 要么延迟高不适合实时对话. Qwen3-TTS 用离散多码本 LM 架构直接端到端建模, 配合创新的双轨混合流式生成, 单一模型同时支持流式和非流式输出. 声音克隆也很猛, 只需要 3 秒的参考音频就能复刻音色. 还支持自然语言指令控制, 比如“用温柔鼓励的声音说”, 模型就能自适应调整语调、情感和韵律, 实现“所想即所听”.
🧵 深度展开
元数据
作者:karminski-牙医 | 标签:Qwen3-TTS 语音合成 AI模型 声音克隆 阿里巴巴
阿里通义千问刚刚开源了 Qwen3-TTS 一系列端到端的语音合成大模型. (去年九月份我给大家录过Qwen3-TTS-Flash 的测试). 这个模型由于足够小, 所以可以做到端到端延迟只有 97ms, 输入一个字就能开始出声!
传统 TTS 方案要么是 LM+DiT 级联架构有信息瓶颈,

元数据
• 类型:推文
• 标签:#AI
• 收藏夹:资源 → X Posts/资源