看来,芯片初创公司Taalas似乎已经找到了解决大语言模型响应延迟和性能问题的方法,其途径是创造能够“固化”人工智能模型的专用硬件。

Cover Image

Taalas成功将MetaLlama 8B大语言模型的每秒令牌处理量提升了10倍,同时生产成本降低了20倍

审视当今的人工智能计算领域,延迟正成为现代计算提供商面临的一个巨大制约因素。这主要是因为,在智能体环境中,主要的竞争壁垒在于每秒令牌处理量数据以及完成任务的速度。业界看到的一个解决方案是将静态随机存取存储器集成到产品中,CerebrasGroq等公司已经在探索这一方向。然而,初创公司Taalas显然探索了一条相当有趣的路线:从通用计算转向针对大语言模型的专用集成电路。

Taalas成立于两年半前,它开发了一个平台,能够将任何人工智能模型转化为定制芯片。从接收到一个前所未见的模型那一刻起,仅需两个月就能将其在硬件中实现。由此产生的“硬核模型”在速度、成本和功耗方面都比基于软件的实现方式高出一个数量级。

据该公司称,其方法侧重于两个不同的基本原理。首先是人工智能工作负载在硬件层面的专业化。当我们说以硬件为中心时,字面意思就是将大语言模型的特定神经网络映射到芯片本身,从而为每个模型优化基础设施。第二个目标领域是该公司所谓的“存储与计算融合”,其重点是克服通用系统中的内存墙和数据通信开销。

通过他们的解决方案,所有计算都在“动态随机存取存储器级别”的密度下进行,以确保更快的内部通信,这也是Taalas能够解决大语言模型延迟问题的原因之一。他们的解决方案不包含先进的冷却技术、高带宽内存、复杂封装或集成;相反,所有的创新都发生在芯片的工程动力学内部。Taalas还展示了其首款产品HC1,该产品集成了MetaLlama 3.1 8B大语言模型。其性能结果至少可以说是“令人震惊”的。

Taalas提供了相当于当今“高端”基础设施10倍的每秒令牌处理量,同时实现了20倍的生产成本降低。你可能会认为延迟和性能限制在这里得到了解决,但让我们从技术角度看看HC1芯片。它采用了台积电6纳米制程节点,芯片尺寸高达815平方毫米,几乎与英伟达H100芯片尺寸相当。HC1承载了一个80亿参数的模型,而当今前沿的大语言模型参数规模已高达一万亿。如果你现在猜到了,Taalas将需要重新制定其芯片策略。

提升性能的唯一途径是提供基于集群的方法。据Taalas称,他们已经对深度求索R1模型做到了这一点,在30颗芯片的配置下,实现了每个用户12,000的每秒令牌处理量。因此,目前的主要制约因素在于市场采用率和商业模式。考虑到这种固化方法,硬件确实将针对特定的大语言模型,无法更改模型权重,但鉴于该初创公司所展示的速度数据,这并非一个糟糕的赌注。


文章标签: #AI芯片 #硬件加速 #大语言模型 #性能优化 #成本降低

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。