每日 AI 评测速递来啦（12.25）

一个面向多轮澄清的评测基准，通过多维模糊类型和多样化用户模拟，系统评估大语言模型在真实交互中何时提问、何时回答及处理模糊信息的能力。一个用于自然场景下视觉推理能力评测的基准，通过三个复杂度层级系统评估视觉-语言模型在感知补全、规则推理和组合推理上的表现。一个基于计算力学的评测基准，用于系统评估大语言模型生成有限元方法及相关科学代码的能力。司南·Daily Benchmark 专区今日上新！

司南OpenCompass

169人浏览 · 2025-12-25 19:32:48

司南OpenCompass · 2025-12-25 19:32:48 发布

司南·Daily Benchmark 专区今日上新！

FEM-Bench

一个基于计算力学的评测基准，用于系统评估大语言模型生成有限元方法及相关科学代码的能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2020732

ClarifyMT-Bench

一个面向多轮澄清的评测基准，通过多维模糊类型和多样化用户模拟，系统评估大语言模型在真实交互中何时提问、何时回答及处理模糊信息的能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2021120

VisRes Bench

一个用于自然场景下视觉推理能力评测的基准，通过三个复杂度层级系统评估视觉-语言模型在感知补全、规则推理和组合推理上的表现。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2021194

九章云极普惠算力

更多推荐

VideoAgentTrek-ScreenFilter代码实例：Supervisor自启服务管理实战

本文介绍了如何在星图GPU平台上自动化部署VideoAgentTrek-ScreenFilter镜像，实现基于YOLO的视频/图片屏幕内容检测服务。通过配置Supervisor守护进程，该应用可升级为具备自动重启和状态监控能力的生产级服务，确保检测任务稳定运行。

九章云极普惠算力

DeepSeek-OCR-2效果展示：印章覆盖文字、朱砂批注干扰下的鲁棒性识别能力

本文介绍了如何在星图GPU平台自动化部署🖋️ 深求·墨鉴 (DeepSeek-OCR-2)镜像，实现复杂场景下的文字识别。该镜像特别适用于处理带有印章覆盖和朱砂批注干扰的文档数字化，如古籍保护、法律合同等场景，展现出色的鲁棒性和高精度识别能力。

九章云极普惠算力

RVC在老年关怀中的应用：子女声音克隆缓解认知障碍焦虑

本文介绍了如何利用星图GPU平台自动化部署RVC语音克隆镜像，构建老年关怀应用。通过该平台，用户可快速训练个性化声音模型，并将其集成到智能陪伴系统中，用于为认知障碍老人定时播放子女声音的问候与提醒，有效缓解孤独与焦虑。

九章云极普惠算力

所有评论(0)

查看更多评论

司南OpenCompass

已为社区贡献2条内容