支付宝开放平台-开发者社区——AI 日报「12 月 5 日」
当Agent,可以跨越各大APP之间的高墙,来替代人在各大APP之间流转,这个商业价值,就有很大的想象空间了。在 AI 的落地的 4*100 接力中,AI 与数字人只是个杠杆,用户才是能否撬动 100 万的收益,决定最后能不能夺冠的最后一棒——万能的锤子,敲出什么样的作品,全看将它用在什么场景。」产生这个判断的逻辑很直白,司马华鹏经常举的一个例子是红杉的一份报告:全世界投了五六千亿美金在大模型算力
1 谷歌世界模型爆发:单张图生成可玩3D世界,还要和马斯克一起做AI游戏
机器之心|阅读原文
Google DeepMind 震撼宣布了他们的新一代世界模型 Genie 2,其可根据一张图生成可供人类或 AI 智能体游玩的无限 3D 世界。有人被这技术进步的速度震撼,称之为视频游戏的未来,甚至还有人看到了一切都被虚拟化的世界模型的更长远未来。
Genie 2 是一个基础世界模型(foundation world model),有能力生成无限多种可控制动作、可玩的 3D 环境,而这些 3D 环境又可用于训练和评估具身智能体。DeepMind 表示,Genie 2 只需使用单张提示图像,就能生成可供人类或 AI 智能使用键鼠输入游玩的环境。我们知道,在 AI 研究领域,游戏扮演着一个重要角色。游戏需要玩家参与、具有不同的难度、游戏进度也易于衡量,因此成为了安全测试和推进 AI 发展的理想环境。 DeepMind 指出,训练更通用的具身智能体有一个瓶颈:难以获得足够丰富和多样化的训练环境。但Genie 2 似乎就能填补这一空白,其能创造一个用于训练和评估智能体的无限新世界。
「飞飞的 World Labs 和 Google 的 Genie2 看上去都是从一张图片生成可以交互的三维场景,但有本质区别。Genie2 还是 video diffusion(视频扩散),每一帧的生成都是 pixel prediction(像素预测),并通过额外的用户输入的 guidance(引导)来影响下一帧的概率分布。而飞飞的 World Labs 是更进一步挖掘世界的物理本质:从图片出发,估计图片中不同景物的深度和相对关系,生成了更加物理世界的 3D 环境建模,不仅仅是可互动视频。」
2 摸着乔布斯过河,司马华鹏带着硅基智能「一路狂奔」
极客公园|阅读原文
在数字人行业,一半人在摸着硅基智能过河,一半人看不懂硅基智能。一方面,融合了大模型与数字人多种热门科技元素于一身,成立七年多,硅基智能却是业内罕见的不烧钱的玩家。
在 C 端的破圈,则始于 2022 年百万粉丝大 V 刘润的年终演讲,视频中,刘润展示出的硅基智能为其制作的数字人效果几乎真假难辨,硅基智能也随之声名鹊起。
如何评价一个大模型是否有用,在硅基智能,答案简单而粗暴「能不能帮用户赚 100 万。」产生这个判断的逻辑很直白,司马华鹏经常举的一个例子是红杉的一份报告:全世界投了五六千亿美金在大模型算力,但是整个 AI 加起来的回报还不到 1, 000 亿,中间隔着几千亿 gap,全都是泡沫。未来,这些不能赚到钱的 AI,迟早会高峰跌落。
但一个有趣的现象是,多次对外发声中,司马华鹏也坦言:如果说你买一个月 3000 块钱的数字人就能把公司的电商盘活,那这个数字人就不止 3000 块了。在 AI 的落地的 4*100 接力中,AI 与数字人只是个杠杆,用户才是能否撬动 100 万的收益,决定最后能不能夺冠的最后一棒——万能的锤子,敲出什么样的作品,全看将它用在什么场景。
3⃣️智谱AI全新发布Agent家族
数字生命卡兹克|阅读原文
智谱在他们的OpenDay上,发布了全新的Agent蓝图——升级版AutoGLM、AutoGLM-Web、GLM-PC。分别对应手机、浏览器、电脑。三个系统,三种形态。
升级版AutoGLM,支持一大部分主流APP-比如抖音、微博、饿了么、京东、拼多多等等。而且支持跨APP操作了。几乎都是各种APP互相跳来跳去,比如在美团外卖和饿了么里比价,比如在小红书里搜旅游攻略去携程订酒店等等。当Agent,可以跨越各大APP之间的高墙,来替代人在各大APP之间流转,这个商业价值,就有很大的想象空间了。便捷性上:支持快捷口令点东西,之前需要点奶茶每次都说一遍详细要求,现在可以直接把快捷口令预设好,直接说点奶茶就好。
AutoGLM-Web:基于AutoGLM技术打造的电脑浏览器版本,支持知乎、Github、芒果TV、百度搜索、微博等等N个网站。跟手机版AutoGLM类似,用的是同种技术底层,所以也支持跨APP操作。
GLM-PC:这个其实是One-more-thing。一句话操控电脑,完成网页浏览、微信文件发送、参加会议、发送会议总结等等等等。比Claude的Computer Use更适合中国体制。而且最好玩的是,可以通过手机远程操控电脑。再也不用在老板急着要文件的时候跑回公司了,对着手机一句话,就能让GLM-PC,给你把一切都做了。
真正的实现,用AI,给我自由。GLM-PC的底座模型是CogAgent,这就是一个能理解界面UI并且进行复杂任务拆解的Agent视觉模型。大概原理就是,看电脑屏幕,然后规划,在对屏幕元素进行操作,比如点击、输入、滚动等等。这一套方案,理论上来说,上限无限高。
因为,人,就是这么操作电脑的。
对此,你怎么看?
支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。

更多推荐

所有评论(0)