Hugging Face的开发团队最近推出了一款号称最小的AI模型,能够同时处理图像、短视频和文本内容。这款模型名为SmolVLM,分为SmolVLM-256M和SmolVLM-500M两个版本,参数量分别为2.56亿和5亿。它们的体积小巧,非常适合在内存有限的设备上运行,比如那些内存不足1GB的老旧笔记本电脑。对于开发者来说,如果需要在预算有限的情况下处理大量数据,这两个模型无疑是理想的选择。

Huggingface-ai

这两个模型的功能十分强大,可以轻松完成诸如描述图像、视频片段,以及回答有关PDF文件内容(包括扫描文本和图表)的问题等任务。为了训练SmolVLM模型,Hugging Face团队使用了The Cauldron和Docmatix这两个数据集。The Cauldron包含50个高质量的图像和文本数据集,而Docmatix则是一组带有详细说明的文件扫描,这些数据集均由Hugging Face的M4团队开发,该团队专注于多模态AI技术的研究。

在性能方面,SmolVLM模型的表现令人瞩目。根据Hugging Face团队的测试,SmolVLM-256M和SmolVLM-500M在多个基准测试中均超越了参数量高达800亿的Idefics 80B模型。

例如,在AI2D测试中,它们能够更好地分析小学科学图表。目前,SmolVLM-256M和SmolVLM-500M已经可以在网上找到,并且可以从Hugging Face平台下载。它们采用了Apache 2.0开源许可,这意味着开发者可以自由使用,无需担心版权问题。

不过,尽管小型模型在成本和灵活性方面具有优势,但它们也存在一些潜在的不足。最近,谷歌DeepMind、微软研究院和加拿大魁北克的Mila研究所联合发布了一项研究,指出许多小型模型在处理复杂推理任务时的表现并不理想。研究人员推测,这可能是因为小型模型更容易识别数据中的表面模式,但在将这些模式应用到新情境时会遇到困难。尽管如此,SmolVLM模型的推出,无疑为AI技术在资源受限设备上的应用开辟了新的可能性。


文章标签: #人工智能 #多模态 #小型模型 #性能 #资源受限设备

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。