最近,人工智能领域又迎来了一个重磅消息。专注于人工智能的初创公司 Cohere 的非营利研究实验室 Cohere For AI 发布了一款名为 Aya Vision 的多模态“开放”人工智能模型。实验室声称,这款模型在同类产品中表现卓越,堪称行业标杆。

Cover Image

Aya Vision 的功能十分强大,它不仅能为图像撰写说明,还能回答与照片相关的问题,甚至可以翻译文本,并生成 23 种主要语言的摘要。为了让全球研究人员都能轻松接触到这一先进技术,Cohere 还通过 WhatsApp 免费提供 Aya Vision,称其为“推动技术突破普及的重要一步”。

不过,尽管人工智能技术已经取得了显著进展,但不同语言之间的模型性能仍存在巨大差距,尤其是在涉及文本和图像的多模态任务中,这种差距更加明显。Cohere 在一篇博客文章中提到:“Aya Vision 的目标就是明确地帮助缩小这一差距。”

Aya Vision 有两个版本:Aya Vision 32B 和 Aya Vision 8B。其中,Aya Vision 32B 是更复杂的一个版本。Cohere 表示,它开辟了“新的技术前沿”,在某些视觉理解基准测试中,其性能甚至超过了两倍于其规模的模型,包括 Meta 的 Llama-3.2 90B Vision。与此同时,Aya Vision 8B 的表现也十分出色,根据 Cohere 的说法,它在某些评估中甚至优于十倍于其规模的模型。

目前,这两款模型都在人工智能开发平台 Hugging Face 上以知识共享 4.0 许可证提供(附 Cohere 的可接受使用补充条款),但它们均不得用于商业应用。

在训练 Aya Vision 时,Cohere 使用了一个“多样化的英语数据集”,并将这些数据集翻译后用于创建合成标注。标注,也称为标签或标记,是帮助模型在训练过程中理解和解释数据的重要工具。例如,在训练图像识别模型时,标注可能包括围绕物体的标记或指代图像中每个人、地点或物体的说明。

如今,合成标注(即由人工智能生成的标注)的使用已经成为一种趋势。尽管存在潜在的弊端,但随着现实世界数据的枯竭,包括 OpenAI 在内的竞争对手越来越多地利用合成数据来训练模型。研究公司 Gartner 估计,去年用于人工智能和分析项目的 60% 的数据是合成生成的。

Cohere 表示,使用合成标注训练 Aya Vision 使实验室能够在使用较少资源的同时实现具有竞争力的性能。Cohere 在其博客中写道:“这展示了我们对效率的关键关注,以及如何通过更少的计算资源完成更多工作。这也为研究社区提供了更大的支持,因为他们通常对计算资源的获取更为有限。”

与 Aya Vision 一起,Cohere 还发布了一个新的基准测试套件 AyaVisionBench,旨在测试模型在“视觉语言”任务中的技能,例如识别两张图像之间的差异以及将屏幕截图转换为代码。

目前,人工智能行业正处于一场所谓的“评估危机”之中。这是因为现有的流行基准测试给出的综合分数与大多数人工智能用户关心的任务熟练度相关性很差。对此,Cohere 表示,AyaVisionBench 是纠正这一问题的重要一步,它为评估模型的跨语言和多模态理解能力提供了一个“广泛且具有挑战性”的框架。

Cohere 的研究人员在 Hugging Face 上的一篇帖子中写道:“该数据集是用于在多语言和现实世界环境中评估视觉语言模型的有力基准。我们向研究社区提供这一评估集,以推动多语言多模态评估的发展。”


文章标签: #人工智能 #多模态 #语言模型 #视觉理解 #Cohere

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。