谷歌Gemini图像模型升级，获评香蕉级优异

谷歌正在升级其Gemini聊天机器人，推出一款名为Gemini 2.5 Flash Image的新型人工智能图像模型。该模型于8月27日起向Gemini应用所有用户开放，同时通过Gemini API、Google AI Studio和Vertex AI平台向开发者提供。此举旨在追赶OpenAI热门图像工具的竞争力，吸引ChatGPT用户转向。

Cover Image

新模型专精于根据自然语言指令对图像进行精确编辑，在保持人物面部、动物特征及其他细节一致性方面表现出众——这正是多数竞品工具的薄弱环节。例如要求ChatGPT或xAI的Grok修改照片中人物衬衫颜色，可能导致面部扭曲或背景异常。

该工具已引发市场关注。近几周，社交媒体用户在众包评估平台LMArena上对化名为“nano-banana”的匿名模型表现出极大热情。谷歌已确认该模型实为其旗舰产品Gemini 2.5 Flash的内置图像功能，并宣称其在LMArena等基准测试中达到业界顶尖水平。

“我们正在同步提升视觉质量和指令遵循能力，”谷歌DeepMind视觉生成模型产品负责人妮可·布里赫托娃（Nicole Brichtova）表示，“新版本能实现更无缝的编辑效果，输出内容具备高度可用性。”

人工智能图像领域已成为科技巨头的必争之地。当OpenAI于2024年3月推出GPT-4o内置图像生成器时，借助宫崎骏风格表情包创作热潮，使ChatGPT使用量激增，OpenAI首席执行官萨姆·奥尔特曼（Sam Altman）称当时公司GPU几乎“熔毁”。为应对竞争，Meta上周宣布将从初创企业Midjourney授权人工智能图像模型，而a16z投资的德国独角兽Black Forest Labs持续以其FLUX模型统治基准测试排行榜。

此次升级或有助于谷歌缩小与OpenAI的用户差距。目前ChatGPT周活跃用户超7亿，而谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）在7月财报电话会披露，Gemini月活用户为4.5亿，周活数据显然更低。

布里赫托娃强调，该图像模型专门针对消费者场景设计，例如帮助用户可视化家居园艺项目。模型还具备更强的“世界知识”能力，可单次提示中融合多重参考元素，如将沙发图片、客厅照片和色板整合为协调的渲染效果。

尽管新生成器大幅提升图像编辑便利性，谷歌仍设置了内容安全限制。此前公司曾因生成历史人物失实图像道歉并暂停图像生成功能，如今声称已找到更好平衡点。“我们既要赋予用户创作自由，也要确保内容合规，”布里赫托娃指出。根据谷歌服务条款，生成式人工智能禁止制作“非自愿亲密照片”，而Grok似乎缺乏类似防护机制——该平台曾出现生成泰勒·斯威夫特（Taylor Swift）等名人露骨图像的情况。

为应对难以辨别的深度伪造图像泛滥，谷歌对人工智能生成内容添加可视水印及元数据标识。但布里赫托娃也承认，社交媒体用户快速浏览时未必会注意这些标识。

搜索结果如下

阅读全文

谷歌Gemini图像模型升级，获评香蕉级优异

也可以看看

AOC发布Q27G4ZD QD-OLED游戏显示器，280Hz刷新率，峰值亮度1000尼特

阅读全文

《绝命毒师》13年完美评分被终结，粉丝战争破坏评分体系

阅读全文

詹姆斯古恩澄清蝙蝠侠传言，DC宇宙与异世界计划并行

阅读全文