中国科技企业不断发力,在 AI 领域接连推出与美国 OpenAI 等公司相抗衡的先进模型。
本周,备受阿里巴巴和腾讯支持的初创公司 MiniMax 一口气发布了三款新模型,分别是 MiniMax-Text-01、MiniMax-VL-01 和 T2A-01-HD。其中,MiniMax-Text-01 专注于文本处理,MiniMax-VL-01 能够同时理解图像和文本,而 T2A-01-HD 则是一款音频生成模型,主要生成语音内容。
据 MiniMax 介绍,MiniMax-Text-01 拥有 4560 亿个参数,在 MMLU 和 SimpleQA 等多项基准测试中,其表现力压谷歌新发布的 Gemini 2.0 Flash 等模型。这些测试主要用来衡量模型解答数学问题和基于事实的问题的能力。一般来说,参数数量越多,模型的解决问题能力就越强。
MiniMax-VL-01 的实力也不容小觑,它在多模态理解方面的评估表现与 Anthropic 的 Claude 3.5 Sonnet 不相上下,比如在 ChartQA 测试中,该模型能够解答与图表和图形相关的各种问题。不过,MiniMax-VL-01 在很多测试中还未能完全超越 Gemini 2.0 Flash,OpenAI 的 GPT-4o 和开源模型 InternVL2.5 在多个方面也比它略胜一筹。
值得一提的是,MiniMax-Text-01 的上下文窗口非常大。上下文窗口是指模型在生成输出内容之前所考虑的输入内容,比如文本。MiniMax-Text-01 的上下文窗口达到 400 万个 token,能够一次性分析大约 300 万字,相当于五本《战争与和平》的总字数。
与之相比,MiniMax-Text-01 的上下文窗口大约是 GPT-4o 和 Llama 3.1 的 31 倍。
再来看 T2A-01-HD,这是一款针对语音优化的音频生成模型。它可以生成具有可调节语调、语气和音色的合成语音,支持大约 17 种不同语言,包括英语和中文,并且能够从仅 10 秒的音频录音中克隆声音。
虽然 MiniMax 没有发布 T2A-01-HD 与其他音频生成模型的详细对比测试结果,但从记者的听感来看,T2A-01-HD 的输出音质与 Meta 以及像 PlayAI 这样的初创公司的音频模型相当。
除了 T2A-01-HD 仅通过 MiniMax 的 API 和 Hailuo AI 平台独家提供外,MiniMax 的其他新模型都可以在 GitHub 和 AI 开发平台 Hugging Face 上下载。
不过,这些模型虽然公开可用,但在某些方面仍有限制。MiniMax-Text-01 和 MiniMax-VL-01 并非完全开源,因为 MiniMax 并未公布从头开始重新创建它们所需的组件,比如训练数据。而且,它们还受到 MiniMax 限制性许可的约束,该许可禁止开发人员使用这些模型来改进竞争对手的 AI 模型,并且要求月活跃用户超过 1 亿的平台必须向 MiniMax 申请特殊许可。
MiniMax 是在 2021 年由商汤科技的前员工创立的。商汤科技是中国最大的 AI 公司之一。MiniMax 的项目包括像 Talkie 这样的应用程序,这是一个类似于 Character AI 的 AI 驱动的角色扮演平台,还有 MiniMax 在 Hailuo 发布的文本到视频模型。
然而,MiniMax 的一些产品也引发了一些争议。Talkie 在 12 月因不明“技术”原因被苹果应用商店下架。该应用包含了唐纳德·特朗普、泰勒·斯威夫特、埃隆·马斯克和勒布朗·詹姆斯等公众人物的 AI 头像,但这些人似乎都没有同意在该应用中被展示。
12 月,Broadcast 杂志还报道称,MiniMax 的视频生成器可以复制英国电视台的标志,这暗示 MiniMax 的模型可能是在这些频道的内容上进行训练的。此外,据报道,MiniMax 正被爱奇艺起诉,这家中国视频流媒体服务声称 MiniMax 非法使用了爱奇艺的版权录音进行训练。