苹果研究揭秘未来AI工具潜力，两大模型引领创新

苹果公司在其机器学习博客上发表了两篇新研究论文，详细介绍了两种人工智能模型：一种用于改进摄影测量技术，另一种则充当视频相关的个人助手。

Cover Image

这家iPhone制造商对机器学习领域保持长期关注，相关技术已演进为其人工智能版本。该公司持续公开发表研究论文，以展示其在未来科技领域的进展。“苹果智能”（Apple Intelligence）为用户提供了多项新功能，包括“图像游乐场”、邮件应用中AI生成的智能回复、邮件和通知摘要、全新的写作工具框架等。

苹果最新发布的两篇论文揭示了人工智能功能的未来发展方向。在机器学习博客中，该公司详细介绍了名为Matrix3D和StreamBridge的两个AI模型。

Matrix3D革新摄影测量技术

苹果表示Matrix3D是全能型大型摄影测量模型，能够简化从二维图像创建三维对象的过程并降低技术要求。如苹果演示视频所示，该模型仅需少量图像即可构建3D物体和环境。

虽然摄影测量技术本身并非新概念，已广泛应用于游戏开发等行业，但苹果通过Matrix3D将原本复杂的多步骤流程简化，消除了过程中的误差。传统方法需要为每个子流程单独设计算法，而Matrix3D采用统一架构完成深度估计、姿态估计和新视角合成等全部流程，显著提高了精度。

该模型采用“掩码学习策略”进行训练，通过不完整的图像深度和姿态数据来“填补空白”实现预期效果。研究论文指出，传统方法“通常需要数百张密集采集的图像才能实现稳健精确的3D重建”，而Matrix3D仅需两三张图像即可达成相同效果。目前苹果Vision Pro已支持将任意2D图像转为3D，即使是没有肖像模式深度数据的普通照片。

StreamBridge：实时视频助手

另一项StreamBridge模型主要应用于视频领域。研究论文描述其为“将视频大语言模型转化为具备流处理能力的框架”。不同于需要完整预录视频的传统AI模型，StreamBridge能实现“多轮实时理解”和“主动响应生成”。

这意味着该模型可以实时回答关于视频内容的各种问题，包括事件经过、场景位置或特定物体等。更独特的是，它能主动监测视频流并基于实时内容提供指导。苹果演示案例显示，该AI能在用户绘画过程中主动提供分步指导，模拟动态环境中的持续支持。

行业对比与未来展望

其他科技公司也推出了视频AI工具，如谷歌在2024年I/O大会上展示的案例：用户提交唱片机故障视频后，AI能识别型号并诊断平衡问题。苹果StreamBridge则更进一步，可基于实时视频流提供动态指导，而非简单回答。

虽然尚未公布具体功能，但未来可能通过Siri或相机应用实现相关更新。至于Matrix3D摄影测量模型，预计将增强Apple Vision Pro及其后续产品的功能。据传苹果正在开发多款空间计算设备，这些新技术或将应用于未来产品线。

苹果计划在2025年推出更轻薄的Vision Pro迭代产品，并研发配备神经引擎的AR眼镜。这些突破性AI研究或将重新定义人机交互方式，特别是通过与AirPods等设备的语音交互场景。

搜索结果如下

阅读全文

苹果研究揭秘未来AI工具潜力，两大模型引领创新

Matrix3D革新摄影测量技术

StreamBridge：实时视频助手

行业对比与未来展望

也可以看看

布莱克律师回应胁迫指控，泰勒卷入法律纠纷

阅读全文

Take-Two CEO称，侠盗猎车手6于2020年才全力开发

阅读全文

《碟中谍》导演揭秘，太空任务为何无法实拍

阅读全文