一直在找能生成自然对话的AI语音工具,试过不少TTS系统,要么只能单人发音,要么音质僵硬不自然,更别说生成播客那种多人对话了。最近微软开源了VibeVoice这个项目,能生成最长90分钟的多人对话音频,支持4个不同说话人,还有实时流式TTS模式,音质表现力都达到了前沿水平。


VibeVoice是什么

它是微软开源的前沿语音AI框架,专为生成富有表现力的长篇多人对话音频而设计,比如播客节目。采用创新的连续语音分词器和next-token扩散框架,结合大语言模型理解上下文和对话流程,突破了传统TTS系统在扩展性、说话人一致性和自然对话方面的限制。支持中英文,可以生成自然的多人对话、跨语言合成、甚至自发性唱歌。

开源成就

  • • Star数 已经收获17.3K Star

  • • 主开发语言 主要用Python开发

  • • 开源协议 采用MIT协议,完全开源

  • • 官方背书 微软官方开源项目,基于Qwen2.5模型

核心功能


  • • 超长对话生成,可以生成最长90分钟的连续对话音频,突破了传统TTS系统1-2分钟的长度限制,特别适合制作播客节目

  • • 多说话人支持,支持最多4个不同说话人的自然对话,每个说话人都有独特的音色和说话风格,说话人一致性表现优秀

  • • 实时流式TTS,VibeVoice-Realtime-0.5B模型支持实时文本输入和流式语音生成,首个音频块延迟仅约300ms,可用于实时对话应用

# 实时TTS特性
- 首音延迟: ~300ms
- 支持流式文本输入
- 适合单说话人实时生成
- 可通过WebSocket部署Demo
  • • 超低帧率分词器,核心创新使用连续语音分词器(声学和语义),工作在超低7.5Hz帧率,既保持音频保真度又大幅提升长序列处理效率

  • • Next-Token扩散框架,利用LLM理解文本上下文和对话流程,扩散头生成高保真声学细节,实现自然的对话转换和情感表达

  • • 多语言实验支持,新增9种语言的实验性说话人(德语、法语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、西班牙语),欢迎测试反馈

# 支持的语言
核心支持: 中文、英文
实验支持: DE, FR, IT, JP, KR, NL, PL, PT, ES
  • • 跨语言合成,可以实现跨语言语音合成,比如英文转中文或中文转英文,保持说话人特征

  • • 自发性唱歌,模型甚至能生成自发性的唱歌内容,展现出色的表现力和韵律控制能力

  • • 自然对话转换,支持多人对话中的自然停顿、语气转换、情感表达,让对话听起来更真实

安装指南

  • • 在线体验最快,可以直接在Colab上体验实时TTS模型

https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb
  • • 克隆仓库安装,下载代码后可以本地部署

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
  • • 模型下载,模型托管在Hugging Face上

https://huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f
  • • 实时WebSocket Demo,可以启动实时WebSocket演示服务

# 参考官方文档启动实时Demo
# 支持流式文本输入和实时语音生成
  • • Python包安装,支持通过pip安装

pip install -e .
  • • 语音提示格式,为了降低深度伪造风险并确保首音块低延迟,语音提示以嵌入格式提供,需要定制说话人可联系团队

  • • 依赖项要求,需要Python环境和相关深度学习框架,具体要求参见pyproject.toml

模型变体

模型类型

特点

适用场景

长篇多说话人模型

支持最多4个说话人,90分钟对话

播客制作、有声书、多人对话内容

实时流式TTS模型

300ms首音延迟,流式输入

实时对话、语音助手、直播配音

技术创新

  • • 7.5Hz超低帧率:传统TTS通常使用50-100Hz帧率,VibeVoice创新性地降到7.5Hz,极大提升了长序列处理效率

  • • 声学和语义双分词器:分别处理声学细节和语义内容,保证音质的同时提升生成效率

  • • LLM驱动的上下文理解:基于Qwen2.5 1.5B模型,深度理解对话上下文和说话人交互

  • • 扩散头生成:使用扩散模型生成高保真音频细节,确保自然度和表现力

风险与限制

  • • 仅供研究使用:微软明确说明该模型仅用于研究和开发目的,不推荐在商业或实际应用中使用

  • • 深度伪造风险:高质量合成语音可能被滥用于伪装身份、欺诈或传播虚假信息,用户必须负责任地使用

  • • 语言限制:核心支持仅限英文和中文,其他语言可能产生意外输出

  • • 不支持非语音音频:模型专注于语音合成,不处理背景噪音、音乐或其他音效

  • • 不支持重叠语音:当前模型不能显式建模或生成对话中的重叠语音片段

  • • 继承基础模型偏差:可能继承Qwen2.5模型的任何偏见、错误或遗漏

应用场景

  • • 播客制作:自动生成多人对话播客,节省录制和后期成本

  • • 有声书制作:为小说等文学作品配上多个角色的声音

  • • 教育内容:制作对话式教学内容,提升学习体验

  • • 语音助手:使用实时TTS模型打造低延迟语音交互系统

  • • 视频配音:为视频内容快速生成多人对话配音

  • • 无障碍应用:为视障用户提供自然的文字转语音服务

开源地址 https://github.com/microsoft/VibeVoice

END

往期推荐
14.5K Star!开源AI编程助手,专为大型项目和复杂任务而生!
407K Star!GitHub上最全的精选资源库,程序员必备的技术宝库!
18.5K Star!AI浏览器自动化神器,告别繁琐的网页操作!
13.7K Star!Google官方AI代理开发神器,多智能体系统开发效率翻倍!
8.7K Star!不用GPU也能搞语音合成,推荐这个25MB的语音合成神器,从App到嵌入式,从Web到桌面软件,哪里都能用
44.4K Star!告别PDF处理噩梦!这个开源神器让文档转换效率暴涨10倍

更多推荐