苹果正持续以相当快的速度提升其人工智能能力。一个有力的例证是,这家位于库比蒂诺的科技巨头推出了最新的AI模型,它能够从一张单一的2维图像生成完整的3维场景,而且耗时不到一秒钟。

苹果的新视频生成AI模型速度极快且相当准确。苹果现已发表了一项题为“不到一秒内生成清晰的单目视图合成”的研究。该研究详细介绍了苹果的工程师如何训练一个名为SHARP的AI模型,使其能从单一2维图像生成“照片级真实感”的3维视图。
关键在于,苹果声称,视图生成“通过神经网络单次前向传播,在标准GPU上耗时不到一秒”。本质上,SHARP通过考虑图像的“邻近视点”,来预测从2维图像中提取的3维场景会是什么样子。
研究报告指出:
“SHARP生成的3维高斯表示随后可以实时渲染,为邻近视图生成高分辨率的照片级真实感图像。该表示是具备绝对尺度的度量性表示,支持度量性的相机运动。”
对于那些可能不了解的人来说,3维高斯泼溅是一种用于创建照片级真实感3维场景的技术,它将此类场景表示为数百万个“泼溅点”,这些点本质上是微小的彩色斑点。然而,要创建一个完整的场景,通常需要从不同角度拍摄的大量2维图像。
苹果的SHARP不同之处在于,它能够通过预测深度和颜色,从一张单一的2维图像中重建出完整的照片级真实感场景,并且同样在不到一秒内完成。更重要的是,你现在可以通过访问专门的GitHub页面免费试用苹果的SHARP AI模型。



