高通公司与一家人工智能初创企业的合作,有望在真正需要算力的领域实现闪电般迅捷的AI体验:在本地设备上对照片和视频进行搜索,并将其作为信息源加以利用。

Cover Image

目前,这项合作着眼于未来,尚处于奠基阶段。Memories.ai公司与高通合作推出了其所谓的“大型视觉记忆模型2.0”,目标是在2026年发布。届时,两家公司将开始向为智能手机、头戴设备和个人电脑开发自有应用的客户推介该模型。

我们是否能在安卓手机上看到由Memories提供技术支持的三星相册应用?从概念上讲,这正是Memories.ai所设想的那种合作关系。

人们并不擅长记住经历的细节,但视觉图像可以作为一个触发器,解锁相关的细节。这正是Memories.ai所使用的比喻——就像两周前你吃过的汉堡图片,能帮助你回忆起所吃的食物、地点以及共餐者的所有细节,Memories.ai公司的联合创始人兼首席执行官肖恩·沈解释道。Memories.ai试图解决的问题是,机器已经学会了很好地识别词语和数据之间的关系,但在处理图像方面能力却差得多。

“最终,记忆将胜出,”说。

Memories.ai开发了两项技术:一个编码器和一套搜索架构。Memories实际上并非直接驱动您要取出或展示给朋友和家人看的图像或视频,而是在捕获图像或视频的一个版本,该版本针对其所包含的信息进行了优化。然后,这些数据被传递给搜索架构,这样,像“我和一群朋友在韩国吃晚餐”这样的查询就能返回正确的信息。

Memories下方提供了其技术的演示,包括如何使用自然语言搜索和查询视频。

照片搜索和照片查询

Memories技术正朝着几个不同的方向发展。目前,这项合作似乎旨在简单提供一个更好的设备端照片和视频搜索版本,基本上是借鉴类似Google Photos的功能,并开发一个更优越、更私密的版本。一些内置相册应用会为照片添加位置或被拍摄者的标签;而Memories则本质上是在实时创建这些标签。

表示,编码技术可以持续运行,筛选从现实世界中收集到的信息。不过,这种持续记录听起来并不像是为手持设备(如高通的XR平台智能眼镜或其他可穿戴设备)设计的计划。相反,这可能是安防摄像头的功能。Memories.ai技术的第二大功能是能够“与之对话”,其方式与Otter.ai的AI转录服务允许您就该服务的特定转录文本提问非常相似。

“披萨最后一次是什么时候送到的?我家附近发生了什么可疑事件?我的狗是什么时候打翻花瓶的?您只需通过这种自然语言聊天,就可以与摄像头记录的所有个人媒体文件进行交互,”说。

当然,其中一些信息可以从不同来源筛选;您总是可以通过查看日历或在电子邮件中搜索旅行预订信息,来找出上次去日本的时间。Memories.ai相信,您将在照片或视频中找到比那更丰富的上下文信息。

Memories.ai的自然语言界面。

高通的合作是Memories.ai团队首次公开与芯片公司合作,致力于设备端搜索。

“这项合作将催生不仅响应迅速,而且具备情境感知能力的AI平台,能够保留视觉信息、长期识别模式,即使在网络边缘也能可靠运行,”高通产品管理副总裁兼生成式AI负责人维内什·苏库马尔在一份声明中表示。“我们正携手加速实现我们的共同目标,即为现实世界的应用提供更智能、更直观的智能体验。”

高通员工表示,公司内部对此次合作感到“非常兴奋”,他们认为Memories.ai技术可用于搜索视频内容,甚至最终对其进行编辑。此外,Memories模型足够小,可以在设备本地运行,无需连接云端,也消除了搜索过程中与云端来回通信所需的延迟。

此次合作并未具体指明针对高通的哪些处理器,但表示,编码过程在本地NPU上运行,而检索本质上就像使用CPU从数据库中获取查询。当然,高通今年秋季推出了Snapdragon X Elite PC处理器,以及面向智能手机和其他移动设备的Snapdragon 8 Gen 5

表示,Memories最终计划设计自己的应用程序。但目前,Memories高通打算从2026年开始,向设备制造商推介将Memories.ai技术内置到可穿戴设备、手机和摄像头中。


文章标签: #人工智能 #照片搜索 #高通合作 #视觉记忆 #本地处理

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。