苹果公司的机器学习研究团队正通过多种方式提升“苹果智能”(Apple Intelligence)及其他生成式AI系统的性能——近期被国际顶级AI会议收录的多篇论文便印证了这一点。
构建“苹果智能”等机器学习工具需要大量前沿研究,这些研究既服务于现有产品优化,也着眼于苹果尚未推出的未来服务。虽然苹果曾在过往发布会透露过零星进展,但被第十三届国际学习表征会议(ICLR)收录的系列论文,首次系统披露了其研究全貌。
计算机视觉的双向突破
机器学习研究的核心领域之一是计算机视觉。从图像中提取信息的能力能为系统带来显著优势。在《Depth Pro:一秒内生成精准单目测距深度图》论文中,苹果阐释了如何通过单张图像确定深度信息,包括生成高分辨率深度图,并精确捕捉发丝等细微特征。值得注意的是,该系统无需依赖相机型号等元数据即可实现。
视觉分析只是方向之一,逆向的图像生成同样关键。苹果在文本生成图像领域提交的两篇论文分别提出:通过“激活迁移”技术(基于最优传输理论构建的生成框架)控制输出效果,以及创新性的非马尔可夫框架扩散模型DART。后者突破性地将自回归与扩散模型统一,在保持灵活性的同时显著提升训练效率,实现文本与图像数据在同一模型中的协同训练。
决策系统的可靠性进化
随着“苹果智能”或将代表用户激活应用并执行任务,研究者必须构建具备确定性的任务执行系统。《大语言模型在序列决策中的建模能力》论文提出:可利用LLM的通用知识为强化学习智能体制定策略,未来或能通过通用基础模型和自动标注替代昂贵的人工设计奖励函数。
面对复杂任务时,模型需逐步推理,但每个环节都可能产生谬误。现行方案依赖加权多方案的外部验证器,但存在采样效率低下和强监督依赖的缺陷。《数学问题的分步推理:扭曲序列蒙特卡洛方法》通过优化采样机制,使系统聚焦于潜力方案,并预估局部解的预期收益,从而减少对人类干预的依赖。
大模型的自我认知革命
为确保基于LLM的AI智能体安全可控,模型必须遵循用户设定的约束条件——但现有LLM连基本指令都难以稳定执行。《LLM是否能内化指令遵循认知?》将探究模型表征中是否存在与指令执行成功率相关的隐式编码机制,包括预测响应合规性及泛化至相似任务的能力。
鉴于LLM存在“幻觉”(输出虚构内容但伪装成事实)风险,《LLM能否准确评估指令遵循中的不确定性?》将检验模型对自身确定性的评估能力。苹果认为现有评估方法表现欠佳,亟需革新。
4月24日至28日在新加坡举行的ICLR会议上,苹果研究人员将就上述课题进行报告。苹果不仅设有C03展位展示单目深度估计系统Depth Zero和移动端视觉语言模型FastVLM系列,还赞助了多场专题研讨会。