17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS
采用创新的连续语音分词器和next-token扩散框架,结合大语言模型理解上下文和对话流程,突破了传统TTS系统在扩展性、说话人一致性和自然对话方面的限制。一直在找能生成自然对话的AI语音工具,试过不少TTS系统,要么只能单人发音,要么音质僵硬不自然,更别说生成播客那种多人对话了。,支持最多4个不同说话人的自然对话,每个说话人都有独特的音色和说话风格,说话人一致性表现优秀。,利用LLM理解文本上下
一直在找能生成自然对话的AI语音工具,试过不少TTS系统,要么只能单人发音,要么音质僵硬不自然,更别说生成播客那种多人对话了。最近微软开源了VibeVoice这个项目,能生成最长90分钟的多人对话音频,支持4个不同说话人,还有实时流式TTS模式,音质表现力都达到了前沿水平。
VibeVoice是什么
它是微软开源的前沿语音AI框架,专为生成富有表现力的长篇多人对话音频而设计,比如播客节目。采用创新的连续语音分词器和next-token扩散框架,结合大语言模型理解上下文和对话流程,突破了传统TTS系统在扩展性、说话人一致性和自然对话方面的限制。支持中英文,可以生成自然的多人对话、跨语言合成、甚至自发性唱歌。
开源成就
-
• Star数 已经收获17.3K Star
-
• 主开发语言 主要用Python开发
-
• 开源协议 采用MIT协议,完全开源
-
• 官方背书 微软官方开源项目,基于Qwen2.5模型
核心功能
-
• 超长对话生成,可以生成最长90分钟的连续对话音频,突破了传统TTS系统1-2分钟的长度限制,特别适合制作播客节目
-
• 多说话人支持,支持最多4个不同说话人的自然对话,每个说话人都有独特的音色和说话风格,说话人一致性表现优秀
-
• 实时流式TTS,VibeVoice-Realtime-0.5B模型支持实时文本输入和流式语音生成,首个音频块延迟仅约300ms,可用于实时对话应用
# 实时TTS特性
- 首音延迟: ~300ms
- 支持流式文本输入
- 适合单说话人实时生成
- 可通过WebSocket部署Demo
-
• 超低帧率分词器,核心创新使用连续语音分词器(声学和语义),工作在超低7.5Hz帧率,既保持音频保真度又大幅提升长序列处理效率
-
• Next-Token扩散框架,利用LLM理解文本上下文和对话流程,扩散头生成高保真声学细节,实现自然的对话转换和情感表达
-
• 多语言实验支持,新增9种语言的实验性说话人(德语、法语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、西班牙语),欢迎测试反馈
# 支持的语言
核心支持: 中文、英文
实验支持: DE, FR, IT, JP, KR, NL, PL, PT, ES
-
• 跨语言合成,可以实现跨语言语音合成,比如英文转中文或中文转英文,保持说话人特征
-
• 自发性唱歌,模型甚至能生成自发性的唱歌内容,展现出色的表现力和韵律控制能力
-
• 自然对话转换,支持多人对话中的自然停顿、语气转换、情感表达,让对话听起来更真实
安装指南
-
• 在线体验最快,可以直接在Colab上体验实时TTS模型
https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb
-
• 克隆仓库安装,下载代码后可以本地部署
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
-
• 模型下载,模型托管在Hugging Face上
https://huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f
-
• 实时WebSocket Demo,可以启动实时WebSocket演示服务
# 参考官方文档启动实时Demo
# 支持流式文本输入和实时语音生成
-
• Python包安装,支持通过pip安装
pip install -e .
-
• 语音提示格式,为了降低深度伪造风险并确保首音块低延迟,语音提示以嵌入格式提供,需要定制说话人可联系团队
-
• 依赖项要求,需要Python环境和相关深度学习框架,具体要求参见pyproject.toml
模型变体
|
模型类型 |
特点 |
适用场景 |
|---|---|---|
| 长篇多说话人模型 |
支持最多4个说话人,90分钟对话 |
播客制作、有声书、多人对话内容 |
| 实时流式TTS模型 |
300ms首音延迟,流式输入 |
实时对话、语音助手、直播配音 |
技术创新
-
• 7.5Hz超低帧率:传统TTS通常使用50-100Hz帧率,VibeVoice创新性地降到7.5Hz,极大提升了长序列处理效率
-
• 声学和语义双分词器:分别处理声学细节和语义内容,保证音质的同时提升生成效率
-
• LLM驱动的上下文理解:基于Qwen2.5 1.5B模型,深度理解对话上下文和说话人交互
-
• 扩散头生成:使用扩散模型生成高保真音频细节,确保自然度和表现力
风险与限制
-
• 仅供研究使用:微软明确说明该模型仅用于研究和开发目的,不推荐在商业或实际应用中使用
-
• 深度伪造风险:高质量合成语音可能被滥用于伪装身份、欺诈或传播虚假信息,用户必须负责任地使用
-
• 语言限制:核心支持仅限英文和中文,其他语言可能产生意外输出
-
• 不支持非语音音频:模型专注于语音合成,不处理背景噪音、音乐或其他音效
-
• 不支持重叠语音:当前模型不能显式建模或生成对话中的重叠语音片段
-
• 继承基础模型偏差:可能继承Qwen2.5模型的任何偏见、错误或遗漏
应用场景
-
• 播客制作:自动生成多人对话播客,节省录制和后期成本
-
• 有声书制作:为小说等文学作品配上多个角色的声音
-
• 教育内容:制作对话式教学内容,提升学习体验
-
• 语音助手:使用实时TTS模型打造低延迟语音交互系统
-
• 视频配音:为视频内容快速生成多人对话配音
-
• 无障碍应用:为视障用户提供自然的文字转语音服务
开源地址 https://github.com/microsoft/VibeVoice
END 往期推荐 14.5K Star!开源AI编程助手,专为大型项目和复杂任务而生! 407K Star!GitHub上最全的精选资源库,程序员必备的技术宝库! 18.5K Star!AI浏览器自动化神器,告别繁琐的网页操作! 13.7K Star!Google官方AI代理开发神器,多智能体系统开发效率翻倍! 8.7K Star!不用GPU也能搞语音合成,推荐这个25MB的语音合成神器,从App到嵌入式,从Web到桌面软件,哪里都能用 44.4K Star!告别PDF处理噩梦!这个开源神器让文档转换效率暴涨10倍

更多推荐
所有评论(0)