苹果公司在其机器学习博客上发表了两篇新研究论文,详细介绍了两种人工智能模型:一种用于改进摄影测量技术,另一种则充当视频相关的个人助手。

Cover Image

这家iPhone制造商对机器学习领域保持长期关注,相关技术已演进为其人工智能版本。该公司持续公开发表研究论文,以展示其在未来科技领域的进展。“苹果智能”(Apple Intelligence)为用户提供了多项新功能,包括“图像游乐场”、邮件应用中AI生成的智能回复、邮件和通知摘要、全新的写作工具框架等。

苹果最新发布的两篇论文揭示了人工智能功能的未来发展方向。在机器学习博客中,该公司详细介绍了名为Matrix3D和StreamBridge的两个AI模型。

Matrix3D革新摄影测量技术

苹果表示Matrix3D是全能型大型摄影测量模型,能够简化从二维图像创建三维对象的过程并降低技术要求。如苹果演示视频所示,该模型仅需少量图像即可构建3D物体和环境。

虽然摄影测量技术本身并非新概念,已广泛应用于游戏开发等行业,但苹果通过Matrix3D将原本复杂的多步骤流程简化,消除了过程中的误差。传统方法需要为每个子流程单独设计算法,而Matrix3D采用统一架构完成深度估计、姿态估计和新视角合成等全部流程,显著提高了精度。

该模型采用“掩码学习策略”进行训练,通过不完整的图像深度和姿态数据来“填补空白”实现预期效果。研究论文指出,传统方法“通常需要数百张密集采集的图像才能实现稳健精确的3D重建”,而Matrix3D仅需两三张图像即可达成相同效果。目前苹果Vision Pro已支持将任意2D图像转为3D,即使是没有肖像模式深度数据的普通照片。

StreamBridge:实时视频助手

另一项StreamBridge模型主要应用于视频领域。研究论文描述其为“将视频大语言模型转化为具备流处理能力的框架”。不同于需要完整预录视频的传统AI模型,StreamBridge能实现“多轮实时理解”和“主动响应生成”。

这意味着该模型可以实时回答关于视频内容的各种问题,包括事件经过、场景位置或特定物体等。更独特的是,它能主动监测视频流并基于实时内容提供指导。苹果演示案例显示,该AI能在用户绘画过程中主动提供分步指导,模拟动态环境中的持续支持。

行业对比与未来展望

其他科技公司也推出了视频AI工具,如谷歌在2024年I/O大会上展示的案例:用户提交唱片机故障视频后,AI能识别型号并诊断平衡问题。苹果StreamBridge则更进一步,可基于实时视频流提供动态指导,而非简单回答。

虽然尚未公布具体功能,但未来可能通过Siri或相机应用实现相关更新。至于Matrix3D摄影测量模型,预计将增强Apple Vision Pro及其后续产品的功能。据传苹果正在开发多款空间计算设备,这些新技术或将应用于未来产品线。

苹果计划在2025年推出更轻薄的Vision Pro迭代产品,并研发配备神经引擎的AR眼镜。这些突破性AI研究或将重新定义人机交互方式,特别是通过与AirPods等设备的语音交互场景。


文章标签: #人工智能 #3D建模 #视频处理 #苹果创新 #人机交互

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。