夜访吸血鬼第二季定档网飞,首播日期公布
阅读全文

锤刻创思寰宇网
谷歌正在升级其Gemini聊天机器人,推出一款名为Gemini 2.5 Flash Image的新型人工智能图像模型。该模型于8月27日起向Gemini应用所有用户开放,同时通过Gemini API、Google AI Studio和Vertex AI平台向开发者提供。此举旨在追赶OpenAI热门图像工具的竞争力,吸引ChatGPT用户转向。
新模型专精于根据自然语言指令对图像进行精确编辑,在保持人物面部、动物特征及其他细节一致性方面表现出众——这正是多数竞品工具的薄弱环节。例如要求ChatGPT或xAI的Grok修改照片中人物衬衫颜色,可能导致面部扭曲或背景异常。
该工具已引发市场关注。近几周,社交媒体用户在众包评估平台LMArena上对化名为“nano-banana”的匿名模型表现出极大热情。谷歌已确认该模型实为其旗舰产品Gemini 2.5 Flash的内置图像功能,并宣称其在LMArena等基准测试中达到业界顶尖水平。
“我们正在同步提升视觉质量和指令遵循能力,”谷歌DeepMind视觉生成模型产品负责人妮可·布里赫托娃(Nicole Brichtova)表示,“新版本能实现更无缝的编辑效果,输出内容具备高度可用性。”
人工智能图像领域已成为科技巨头的必争之地。当OpenAI于2024年3月推出GPT-4o内置图像生成器时,借助宫崎骏风格表情包创作热潮,使ChatGPT使用量激增,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)称当时公司GPU几乎“熔毁”。为应对竞争,Meta上周宣布将从初创企业Midjourney授权人工智能图像模型,而a16z投资的德国独角兽Black Forest Labs持续以其FLUX模型统治基准测试排行榜。
此次升级或有助于谷歌缩小与OpenAI的用户差距。目前ChatGPT周活跃用户超7亿,而谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在7月财报电话会披露,Gemini月活用户为4.5亿,周活数据显然更低。
布里赫托娃强调,该图像模型专门针对消费者场景设计,例如帮助用户可视化家居园艺项目。模型还具备更强的“世界知识”能力,可单次提示中融合多重参考元素,如将沙发图片、客厅照片和色板整合为协调的渲染效果。
尽管新生成器大幅提升图像编辑便利性,谷歌仍设置了内容安全限制。此前公司曾因生成历史人物失实图像道歉并暂停图像生成功能,如今声称已找到更好平衡点。“我们既要赋予用户创作自由,也要确保内容合规,”布里赫托娃指出。根据谷歌服务条款,生成式人工智能禁止制作“非自愿亲密照片”,而Grok似乎缺乏类似防护机制——该平台曾出现生成泰勒·斯威夫特(Taylor Swift)等名人露骨图像的情况。
为应对难以辨别的深度伪造图像泛滥,谷歌对人工智能生成内容添加可视水印及元数据标识。但布里赫托娃也承认,社交媒体用户快速浏览时未必会注意这些标识。