据《南华早报》报道,中国深度求索(Deepseek AI)的开发者发布了一款新模型,通过将复杂文档和大段文本先转换为图像,利用其多模态能力显著提升处理效率。视觉编码器能够将海量文本转化为图像,后续调用时所需标记数量可减少7至20倍,同时仍能保持惊人的准确度。

深度求索是中国开发的AI系统,曾在2025年初凭借与OpenAI的ChatGPT或谷歌Gemini相媲美的能力震惊世界,而其开发所需的资金和数据量却远低于后者。研发团队持续致力于提升AI效率,最新发布的DeepSeek-OCR(光学字符识别)技术能够在显著降低标记消耗的前提下,实现对海量文本数据的精准解析。
开发者表示:“通过DeepSeek-OCR,我们证明了视觉文本压缩技术能在不同历史语境阶段实现7至20倍的标记量缩减,这为处理长上下文计算提供了前景广阔的新路径。”
新模型由DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M两大组件构成。编码器可将大量文本数据转换为高分辨率图像,而解码器则擅长从这些高分辨率图像中解析文本语境,其所需标记量远低于直接输入原始文本。该技术通过将每个任务分解至独立子网络,并调用特定AI智能体专家处理不同数据子集来实现这一突破。
该技术对处理表格数据、图表及其他可视化信息表现尤为出色。开发者指出,这在金融、科研及医疗领域具有特殊应用价值。在基准测试中,开发者宣称当标记量缩减倍数低于10倍时,DeepSeek-OCR的信息解码准确率可保持在97%;若压缩比提升至20倍,准确率则会降至60%。虽然这显示出技术收益递减的局限,但即便仅实现1-2倍压缩率且保持接近100%的准确率,仍将对降低最新AI模型的运行成本产生重大影响。
该技术亦被提议作为未来模型的训练数据开发方案,不过在训练阶段引入误差——即使仅有几个百分点的偏差——似乎并非明智之举。若想亲自体验该模型,可通过在线开发者平台Hugging Face和GitHub获取。



