Firefox新增本地AI功能,引发CPU狂飙投诉
阅读全文

锤刻创思寰宇网
谷歌DeepMind近日发布了Genie 3,这款新一代基础世界模型能够训练通用人工智能体。该实验室表示,这一突破性进展是通往“人工通用智能”(即类人智能)道路上的关键基石。
DeepMind研究总监Shlomi Fruchter在发布会上表示:“Genie 3是首个实时交互式通用世界模型。它突破了以往狭义世界模型的局限,不局限于特定环境,能够生成从照片级真实到完全虚构的各类世界。”
目前仍处于研究预览阶段的Genie 3,是在前代Genie 2(可为智能体生成新环境)和最新视频生成模型Veo 3(具备深刻物理理解能力)的基础上开发而成。
仅需简单文本指令,Genie 3就能以720p分辨率、每秒24帧的速率生成持续数分钟的交互式3D环境——这较Genie 2仅能生成10-20秒内容的性能实现重大飞跃。该模型还具备“可触发世界事件”功能,即通过指令改变已生成的世界。
最关键的是,Genie 3的模拟能保持物理连贯性,因为模型能记忆此前生成的内容。DeepMind强调,研究人员并未显式编程这一能力。
Fruchter指出,虽然Genie 3在教育体验、游戏开发和创意概念原型设计等领域具有应用潜力,但其真正价值将体现在通用任务智能体的训练上,这对实现人工通用智能至关重要。
DeepMind开放式研究团队科学家Jack Parker-Holder在简报会上表示:“我们认为世界模型是实现人工通用智能的关键,特别是对于具身智能体而言,模拟真实世界场景极具挑战性。”
据介绍,Genie 3与Veo类似,不依赖硬编码的物理引擎,而是通过记忆生成内容和长时程推理,自主学习物体运动、坠落和交互等世界运行规律。
Fruchter向TechCrunch解释:“这是自回归模型,意味着它逐帧生成内容。必须回顾先前生成的画面才能决定后续发展,这是其架构的核心要素。”这种记忆机制使Genie 3的模拟世界保持连贯性,从而发展出类似人类对物理的直觉理解。
值得注意的是,DeepMind表示该模型还能将AI智能体推向极限——迫使其从自身经验中学习,类似人类在现实世界的学习方式。在仓库环境测试中,搭载Genie 3的通用智能体SIMA成功完成了“接近亮绿色垃圾压缩机”等指令任务。
不过Genie 3仍存在局限:滑雪者俯冲下山时,雪花的运动轨迹与真实物理规律存在偏差;智能体可执行的动作范围有限;难以精确模拟多智能体在共享环境中的复杂交互;目前仅支持数分钟的连续交互,而完整训练需要数小时。
尽管如此,该模型标志着智能体训练的重大进步——不再局限于对输入做出反应,而是能够主动规划、探索、寻求不确定性并通过试错改进。这种自主的具身学习被广泛认为是通向通用智能的关键。
Parker-Holder以2016年AlphaGo对战李世石时著名的“第37手”为例指出:“具身智能体尚未在现实世界中展现过这种突破常规的创造性行为。但现在,我们可能正迎来一个新时代。”