支付宝开放平台-开发者社区——AI 日报「12 月 5 日」

当Agent，可以跨越各大APP之间的高墙，来替代人在各大APP之间流转，这个商业价值，就有很大的想象空间了。在 AI 的落地的 4*100 接力中，AI 与数字人只是个杠杆，用户才是能否撬动 100 万的收益，决定最后能不能夺冠的最后一棒——万能的锤子，敲出什么样的作品，全看将它用在什么场景。」产生这个判断的逻辑很直白，司马华鹏经常举的一个例子是红杉的一份报告：全世界投了五六千亿美金在大模型算力

支付宝官方开放平台

870人浏览 · 2024-12-05 15:17:17

支付宝官方开放平台 · 2024-12-05 15:17:17 发布

1 谷歌世界模型爆发：单张图生成可玩3D世界，还要和马斯克一起做AI游戏

机器之心｜阅读原文

Google DeepMind 震撼宣布了他们的新一代世界模型 Genie 2，其可根据一张图生成可供人类或 AI 智能体游玩的无限 3D 世界。有人被这技术进步的速度震撼，称之为视频游戏的未来，甚至还有人看到了一切都被虚拟化的世界模型的更长远未来。

Genie 2 是一个基础世界模型（foundation world model），有能力生成无限多种可控制动作、可玩的 3D 环境，而这些 3D 环境又可用于训练和评估具身智能体。DeepMind 表示，Genie 2 只需使用单张提示图像，就能生成可供人类或 AI 智能使用键鼠输入游玩的环境。我们知道，在 AI 研究领域，游戏扮演着一个重要角色。游戏需要玩家参与、具有不同的难度、游戏进度也易于衡量，因此成为了安全测试和推进 AI 发展的理想环境。 DeepMind 指出，训练更通用的具身智能体有一个瓶颈：难以获得足够丰富和多样化的训练环境。但Genie 2 似乎就能填补这一空白，其能创造一个用于训练和评估智能体的无限新世界。

「飞飞的 World Labs 和 Google 的 Genie2 看上去都是从一张图片生成可以交互的三维场景，但有本质区别。Genie2 还是 video diffusion（视频扩散），每一帧的生成都是 pixel prediction（像素预测），并通过额外的用户输入的 guidance（引导）来影响下一帧的概率分布。而飞飞的 World Labs 是更进一步挖掘世界的物理本质：从图片出发，估计图片中不同景物的深度和相对关系，生成了更加物理世界的 3D 环境建模，不仅仅是可互动视频。」

2 摸着乔布斯过河，司马华鹏带着硅基智能「一路狂奔」

极客公园｜阅读原文

在数字人行业，一半人在摸着硅基智能过河，一半人看不懂硅基智能。一方面，融合了大模型与数字人多种热门科技元素于一身，成立七年多，硅基智能却是业内罕见的不烧钱的玩家。

在 C 端的破圈，则始于 2022 年百万粉丝大 V 刘润的年终演讲，视频中，刘润展示出的硅基智能为其制作的数字人效果几乎真假难辨，硅基智能也随之声名鹊起。

如何评价一个大模型是否有用，在硅基智能，答案简单而粗暴「能不能帮用户赚 100 万。」产生这个判断的逻辑很直白，司马华鹏经常举的一个例子是红杉的一份报告：全世界投了五六千亿美金在大模型算力，但是整个 AI 加起来的回报还不到 1, 000 亿，中间隔着几千亿 gap，全都是泡沫。未来，这些不能赚到钱的 AI，迟早会高峰跌落。

但一个有趣的现象是，多次对外发声中，司马华鹏也坦言：如果说你买一个月 3000 块钱的数字人就能把公司的电商盘活，那这个数字人就不止 3000 块了。在 AI 的落地的 4*100 接力中，AI 与数字人只是个杠杆，用户才是能否撬动 100 万的收益，决定最后能不能夺冠的最后一棒——万能的锤子，敲出什么样的作品，全看将它用在什么场景。

3⃣️智谱AI全新发布Agent家族

数字生命卡兹克｜阅读原文

智谱在他们的OpenDay上，发布了全新的Agent蓝图——升级版AutoGLM、AutoGLM-Web、GLM-PC。分别对应手机、浏览器、电脑。三个系统，三种形态。

升级版AutoGLM，支持一大部分主流APP-比如抖音、微博、饿了么、京东、拼多多等等。而且支持跨APP操作了。几乎都是各种APP互相跳来跳去，比如在美团外卖和饿了么里比价，比如在小红书里搜旅游攻略去携程订酒店等等。当Agent，可以跨越各大APP之间的高墙，来替代人在各大APP之间流转，这个商业价值，就有很大的想象空间了。便捷性上：支持快捷口令点东西，之前需要点奶茶每次都说一遍详细要求，现在可以直接把快捷口令预设好，直接说点奶茶就好。

AutoGLM-Web：基于AutoGLM技术打造的电脑浏览器版本，支持知乎、Github、芒果TV、百度搜索、微博等等N个网站。跟手机版AutoGLM类似，用的是同种技术底层，所以也支持跨APP操作。

GLM-PC：这个其实是One-more-thing。一句话操控电脑，完成网页浏览、微信文件发送、参加会议、发送会议总结等等等等。比Claude的Computer Use更适合中国体制。而且最好玩的是，可以通过手机远程操控电脑。再也不用在老板急着要文件的时候跑回公司了，对着手机一句话，就能让GLM-PC，给你把一切都做了。

真正的实现，用AI，给我自由。GLM-PC的底座模型是CogAgent，这就是一个能理解界面UI并且进行复杂任务拆解的Agent视觉模型。大概原理就是，看电脑屏幕，然后规划，在对屏幕元素进行操作，比如点击、输入、滚动等等。这一套方案，理论上来说，上限无限高。

因为，人，就是这么操作电脑的。

对此，你怎么看？

支付宝/钉钉扫码加入支付宝开发者钉组织，可了解支付宝开放能力最新动态，订阅文档更新消息，和同城同行业交流业务，与支付宝产研沟通交流。

九章云极普惠算力

更多推荐

Kandinsky-5.0-I2V-Lite-5s惊艳效果展示：赛博朋克街景→霓虹闪烁+雨滴滑落动态视频

本文介绍了如何在星图GPU平台上自动化部署Kandinsky-5.0-I2V-Lite-5s镜像，实现高效图生视频转换。该工具能将静态赛博朋克街景图片快速转换为动态视频，添加霓虹闪烁、雨滴滑落等效果，适用于短视频制作、广告创意等场景，显著提升内容创作效率。

九章云极普惠算力

看遍了市面上的coding plan，我发现还是这个好用

九章云极普惠算力

终极指南：如何用facenet-pytorch快速构建企业级人脸识别系统

在当今数字化时代，人脸识别技术已成为身份验证、安全监控和智能交互的核心驱动力。facenet-pytorch作为一款基于PyTorch的开源人脸识别工具包，凭借其高效的MTCNN人脸检测和InceptionResnetV1特征提取能力，为开发者提供了从零构建专业级人脸识别系统的完整解决方案。本文将带你一步步探索这个强大工具的使用方法，从环境搭建到实际应用，让你在短时间内掌握人脸识别的核心技术。