中文语音识别准确率排行：Fun-ASR位列前三甲

Fun-ASR 是由钉钉与通义实验室推出的高性能中文语音识别系统，支持本地部署与WebUI操作，兼顾准确率与隐私安全。通过轻量化模型设计、热词优化与VAD分段技术，实现在GPU上的近实时转写体验。配套的批量处理、历史追溯和离线运行能力，使其广泛适用于会议纪要、教学转录和科研整理等场景，为用户提供无需依赖云服务的高效语音解决方案。

无声远望

859人浏览 · 2026-01-04 14:04:35

无声远望 · 2026-01-04 14:04:35 发布

Fun-ASR：中文语音识别新势力，准确率跻身前三的本地化实践

在智能办公、远程会议和内容创作日益普及的今天，语音转文字已不再是“锦上添花”的功能，而成了提升效率的关键工具。然而，市面上大多数语音识别服务要么依赖云端API存在隐私风险，要么操作复杂需要编程基础，真正能做到高准确率、低门槛、数据可控三位一体的方案并不多见。

正是在这样的背景下，由钉钉与通义实验室联合推出的 Fun-ASR 引起了广泛关注。这个由开发者“科哥”主导构建的大模型语音识别系统，在多个公开中文测试集上的表现稳居前三，成为国产自研ASR技术的一匹黑马。更关键的是，它不仅性能强劲，还配套了完整的 WebUI 界面，支持本地部署，让普通用户也能一键使用。

这背后的技术逻辑是什么？它是如何平衡精度、速度与可用性的？我们不妨深入拆解一番。

从架构到细节：Fun-ASR 是怎么做到又快又准的？

Fun-ASR 的核心模型版本为 Fun-ASR-Nano-2512，名字中的“Nano”并不意味着能力缩水，而是强调其轻量化设计——专为边缘设备和本地运行优化。尽管参数规模小于超大模型，但它通过高质量数据训练和结构精调，在中文场景下实现了接近SOTA（State-of-the-Art）的识别效果。

其整体采用经典的 编码器-解码器 + 注意力机制 架构，输入音频经过前端处理生成梅尔频谱图后，送入基于 Conformer 或 Transformer 的深层网络进行声学建模。这种结构能有效捕捉长距离上下文依赖，对连续语流中的口音、语速变化具备良好鲁棒性。

整个识别流程可分解为五个关键阶段：

音频预处理：降噪、归一化、分帧加窗，确保输入信号干净稳定；
特征提取：转换为40维梅尔频谱图，作为模型的视觉化“听觉输入”；
声学建模：利用多层自注意力模块提取语音特征，输出音素或子词单元；
语言融合：结合内置的语言模型（LM），纠正语法不通顺或歧义表达；
文本规整（ITN）：将口语化表达如“二零二五年”自动转为“2025年”，“一百八十万”变为“180万”。

值得一提的是，Fun-ASR 支持离线推理，完全不依赖网络连接。这意味着你可以在没有外网的会议室、飞机上甚至保密环境中安全使用，所有数据都留在本地。

不只是模型：WebUI 让技术真正落地

如果说 Fun-ASR 模型是“大脑”，那它的 WebUI 就是“四肢”——把强大的能力转化为人人可用的功能。这套界面基于 Flask/FastAPI 构建，前后端分离，前端用 HTML/CSS/JS 实现交互，后端负责调度模型、管理文件和维护数据库。

整个系统的运行路径清晰直观：

[用户浏览器]
     ↓ (HTTP 请求)
[Python 后端服务]
     ↓ (调用模型)
[Fun-ASR 引擎] → [CUDA/MPS/CPU]
     ↓
[SQLite 历史库]

打开 http://localhost:7860，无需命令行、不用写代码，点击上传就能开始转写。这对非技术人员来说简直是福音。

单文件识别：精准控制每一项参数

最基础也是最常用的模块就是单文件语音识别。你可以上传 WAV、MP3 等常见格式的音频，设置目标语言（默认中文）、是否启用 ITN 规整、以及添加热词列表。

热词机制尤其值得称道——只需在文本框中每行输入一个关键词，比如“钉钉”、“通义千问”、“MaaS平台”，模型就会在推理时给予这些词汇更高权重，显著提升专业术语的召回率。这对于行业会议、技术讲座等场景极为实用。

但也要注意，热词不宜过多（建议少于50个），否则可能干扰正常语义理解，出现“强行匹配”的误识现象。另外，原始音频质量直接影响结果，推荐采样率不低于16kHz，并尽量避免背景噪音。

实时语音记录：用 VAD 模拟流式体验

虽然 Fun-ASR 模型本身不原生支持流式识别，但 WebUI 通过 VAD（Voice Activity Detection）分段 + 快速识别 的方式，巧妙模拟出了“边说边出字”的效果。

工作原理如下：
1. 使用轻量级 VAD 模型检测语音活动；
2. 当检测到语音开始时启动计时；
3. 达到设定的最大片段长度（如30秒）或静默超时时，切分为一段；
4. 立即调用 ASR 模型对该段进行识别；
5. 输出文本并拼接到总结果中。

这种方式虽非真正的流式解码（streaming attention），但在实际体验上已足够流畅，延迟基本控制在1~2秒内。适用于演讲速记、头脑风暴记录等非严格同步场景。

当然，由于是分段独立识别，偶尔会出现断句不合理或重复识别的问题，属于实验性功能范畴。如果你追求绝对准确，仍建议录音完成后统一做全句识别。

批量处理：解放双手，批量转写成百上千条录音

对于教育机构整理课程录音、企业归档客服通话、研究人员处理访谈资料等需求，手动一个个上传显然不可行。Fun-ASR 提供了批量处理模块，支持一次性导入多个文件，并按顺序自动识别。

系统内部采用队列机制遍历文件，逐个调用识别接口。伪代码逻辑如下：

for audio_file in uploaded_files:
    result = fun_asr.transcribe(
        audio=audio_file,
        language="zh",
        hotwords=hotword_list,
        apply_itn=True
    )
    save_to_database(result)

虽然默认并发数为1，防止内存溢出，但可通过多线程优化进一步提速。建议每批控制在50个文件以内，处理过程中保持浏览器活跃状态，避免请求中断。

导出支持 CSV 和 JSON 格式，便于后续导入 Excel 或分析系统做二次加工。

隐藏功臣：VAD 与历史管理如何提升整体体验？

很多人只关注“识别准不准”，却忽略了前置和后置环节的重要性。Fun-ASR 在这两个维度也下了功夫。

VAD 检测：智能分割语音片段

面对长达数小时的会议录音，直接喂给模型不仅耗时还容易出错。VAD 模块的作用就是先“清洗”音频，找出其中有效的语音段落，去除长时间静音或环境噪声部分。

输出结果是一组时间戳区间，例如：

[00:01:23 - 00:02:15]
[00:02:30 - 00:04:08]
...

这些片段可以单独送入识别引擎，也可以合并后再处理。不仅能提升识别准确率，还能用于分析发言分布、计算每人讲话时长等高级用途。

不过要注意，VAD 对极低声量（如耳语）、远场拾音或高背景噪音较为敏感，可能出现漏检或误检。建议关键场景配合人工复查。

历史记录：每一次识别都有迹可循

所有完成的识别任务都会被自动保存到本地 SQLite 数据库（路径：webui/data/history.db），包含以下信息：

记录 ID 与时间戳
原始文件名
识别出的原始文本与规整后文本
使用的配置参数（语言、热词、ITN开关）

这一设计看似简单，实则解决了实际应用中的大问题：可追溯性。你可以随时搜索某次会议的内容，查看当时的识别结果和参数设置，甚至导出分享给同事。

更重要的是，数据全程本地存储，不上传任何服务器，彻底规避了隐私泄露风险。对于医疗、金融、政府等敏感领域尤为友好。

性能与部署：如何跑得更快更稳？

再好的模型也需要合适的运行环境。Fun-ASR 支持多种硬件加速方式，适配性很强。

设备选择优先级

设备类型	推荐指数	说明
CUDA（NVIDIA GPU）	⭐⭐⭐⭐⭐	显存≥8GB最佳，推理速度可达实时（1x speed）
Apple MPS（M系列芯片）	⭐⭐⭐⭐☆	Mac 用户首选，性能接近中端GPU
CPU（x86/AMD）	⭐⭐☆☆☆	可运行，但速度约为GPU的一半

官方文档明确标注：“GPU模式下可实现接近实时识别；CPU模式约0.5x速度”。也就是说，一段10分钟的音频，GPU上10秒完成，CPU则需约20分钟。

当遇到“CUDA out of memory”错误时，不要慌张，WebUI 提供了“清理GPU缓存”按钮，能快速释放显存资源。必要时也可卸载模型以节省内存。

模型与资源配置建议

配置项	推荐设置	说明
计算设备	优先 CUDA > MPS > CPU	自动检测功能可辅助选择
批处理大小	默认1，可尝试调至2~4	多文件并行时提升吞吐
最大音频长度	默认512（单位：token）	过长音频需分段处理