旧金山一家初创公司在过去六个月里进行了一项人工智能领域颇为特殊的数据项目。Conduit公司表示,它已在一个地下室工作室里从“数千名独特的个体”身上收集了大约1万小时的非侵入式神经数据,构成了其认为迄今为止最大的神经语言数据集。该公司正在利用这些录音来训练“思维到文本”的AI模型,这些模型试图在参与者说话或打字前的几秒钟内,从大脑活动中解码语义内容。

参与者坐在小隔间里进行两小时的会话,通过语音或在“简化”键盘上打字,与大语言模型自由对话。早期会话依赖于刻板的任务,但Conduit在注意到参与度强烈影响数据质量后,转向了个性化的来回对话。其目标是在每次录音中最大化自然语言的产生量,同时保持文本、音频和神经信号之间的严格时间对齐。
Conduit在发现没有商用多模态头戴设备能满足其要求后,自行制造了硬件。该团队将顶级的脑电图、功能性近红外光谱和其他传感器整合到定制的3D打印外壳中,并为训练和推理分别设计了方案。训练用的头戴设备是密集、沉重的四磅重装置,旨在最大化信号覆盖范围,而推理用的头戴设备将在模型成熟后通过消融研究来确定形状。所有数据现在都通过Zarr 3格式流动,该格式将多种传感器类型的输入统一在一个框架下。
该公司最初将电气干扰视为数据质量的主要威胁。工作人员用橡胶包裹设备,尝试使用电源调节器,最终完全关闭了主电源,依靠电池组来消除脑电图记录中典型的60赫兹尖峰。这种方法带来了自身的问题,包括丢帧和重型电池的持续轮换,但Conduit后来在发现规模改变了权衡利弊后,恢复了正常供电。一旦数据集超过大约4000至5000小时,模型开始在不同的人、隔间和设置之间进行泛化,从而降低了激进降噪的价值。
随着流程规模化,运营成本下降了。Conduit通过重新设计其后端以实时捕获损坏的会话,并允许会话管理员通过摄像头监控多个隔间,在5月至10月间将每可用小时数据的边际成本降低了约40%。一个定制的预订系统引入了动态定价和超额预订,以在每天20小时的排班中保持其头戴设备的使用率。
Conduit表示,现在几乎完全专注于模型训练,并计划在后续发布中详细介绍其解码系统。



