中国AI公司MiniMax发布新模型称可与行业顶尖竞争

中国科技企业不断发力，在 AI 领域接连推出与美国 OpenAI 等公司相抗衡的先进模型。

本周，备受阿里巴巴和腾讯支持的初创公司 MiniMax 一口气发布了三款新模型，分别是 MiniMax-Text-01、MiniMax-VL-01 和 T2A-01-HD。其中，MiniMax-Text-01 专注于文本处理，MiniMax-VL-01 能够同时理解图像和文本，而 T2A-01-HD 则是一款音频生成模型，主要生成语音内容。

AI-gen

据 MiniMax 介绍，MiniMax-Text-01 拥有 4560 亿个参数，在 MMLU 和 SimpleQA 等多项基准测试中，其表现力压谷歌新发布的 Gemini 2.0 Flash 等模型。这些测试主要用来衡量模型解答数学问题和基于事实的问题的能力。一般来说，参数数量越多，模型的解决问题能力就越强。

MiniMax-VL-01 的实力也不容小觑，它在多模态理解方面的评估表现与 Anthropic 的 Claude 3.5 Sonnet 不相上下，比如在 ChartQA 测试中，该模型能够解答与图表和图形相关的各种问题。不过，MiniMax-VL-01 在很多测试中还未能完全超越 Gemini 2.0 Flash，OpenAI 的 GPT-4o 和开源模型 InternVL2.5 在多个方面也比它略胜一筹。

值得一提的是，MiniMax-Text-01 的上下文窗口非常大。上下文窗口是指模型在生成输出内容之前所考虑的输入内容，比如文本。MiniMax-Text-01 的上下文窗口达到 400 万个 token，能够一次性分析大约 300 万字，相当于五本《战争与和平》的总字数。

与之相比，MiniMax-Text-01 的上下文窗口大约是 GPT-4o 和 Llama 3.1 的 31 倍。

再来看 T2A-01-HD，这是一款针对语音优化的音频生成模型。它可以生成具有可调节语调、语气和音色的合成语音，支持大约 17 种不同语言，包括英语和中文，并且能够从仅 10 秒的音频录音中克隆声音。

虽然 MiniMax 没有发布 T2A-01-HD 与其他音频生成模型的详细对比测试结果，但从记者的听感来看，T2A-01-HD 的输出音质与 Meta 以及像 PlayAI 这样的初创公司的音频模型相当。

除了 T2A-01-HD 仅通过 MiniMax 的 API 和 Hailuo AI 平台独家提供外，MiniMax 的其他新模型都可以在 GitHub 和 AI 开发平台 Hugging Face 上下载。

不过，这些模型虽然公开可用，但在某些方面仍有限制。MiniMax-Text-01 和 MiniMax-VL-01 并非完全开源，因为 MiniMax 并未公布从头开始重新创建它们所需的组件，比如训练数据。而且，它们还受到 MiniMax 限制性许可的约束，该许可禁止开发人员使用这些模型来改进竞争对手的 AI 模型，并且要求月活跃用户超过 1 亿的平台必须向 MiniMax 申请特殊许可。

MiniMax 是在 2021 年由商汤科技的前员工创立的。商汤科技是中国最大的 AI 公司之一。MiniMax 的项目包括像 Talkie 这样的应用程序，这是一个类似于 Character AI 的 AI 驱动的角色扮演平台，还有 MiniMax 在 Hailuo 发布的文本到视频模型。

然而，MiniMax 的一些产品也引发了一些争议。Talkie 在 12 月因不明“技术”原因被苹果应用商店下架。该应用包含了唐纳德·特朗普、泰勒·斯威夫特、埃隆·马斯克和勒布朗·詹姆斯等公众人物的 AI 头像，但这些人似乎都没有同意在该应用中被展示。

12 月，Broadcast 杂志还报道称，MiniMax 的视频生成器可以复制英国电视台的标志，这暗示 MiniMax 的模型可能是在这些频道的内容上进行训练的。此外，据报道，MiniMax 正被爱奇艺起诉，这家中国视频流媒体服务声称 MiniMax 非法使用了爱奇艺的版权录音进行训练。

搜索结果如下

阅读全文

中国AI公司MiniMax发布新模型称可与行业顶尖竞争

也可以看看

《安多》主创揭秘，为何更换20年经典星战演员

阅读全文

沙丘觉醒开发商呼吁，玩家请拆除初始豆腐基地

阅读全文

谷歌AI模式扩大开放，新增多项实用功能

阅读全文