PCWorld报道称,谷歌Nano Banana 2人工智能图像生成器带来了重大升级,支持最高2K分辨率并可提升至4K,其文本渲染能力也得到显著改善。增强后的模型能成功生成包含准确嵌入式文本、图表和说明文字的复杂图像,解决了早期版本常出现的乱码文本问题。该模型可通过Gemini应用、谷歌搜索AI Studio使用,标志着人工智能生成图像的质量和指令遵循能力实现了重大飞跃。

Cover Image

长期以来,即使是最先进的人工智能图像生成器,准确渲染文本也是一大难题,但这恰恰是谷歌刚刚更新的Nano Banana 2引擎的最强项之一。

目前,Nano Banana 2已在Gemini应用中提供,用户也可在谷歌搜索AI Studio和其他谷歌产品中找到它。它拥有一系列新功能,包括最高2K分辨率并可提升至4K,“增强”的指令遵循能力有助于模型更好地遵循用户提示,以及能够借助Gemini的“现实世界”知识,在渲染图像时通过网络搜索获取实时信息。

这已经不错了,但Nano Banana 2的文本保真度更令人印象深刻。我一直在要求Nano Banana 2创建包含广告牌、标志、报纸和其他带有嵌入式文本的物体的图像,它的表现堪称出色,在很大程度上避免了早期人工智能图像生成器在尝试渲染字母和单词时通常产生的乱码。

例如,我提示Nano Banana 2渲染一张机器人在时代广场吸烟的图像,背景中有一个霓虹灯广告牌,上面写着“Nano Banana 2 on Broadway”。这毫无问题,它在大约10秒内就渲染出了图像。

然后,我要求Nano Banana 2创建一张照片,内容是一位女士在早餐角阅读报纸,报纸标题写着“Nano Banana 2 makes its debut”。但为了这次测试,我提高了难度:我要求引擎撰写副标题和文章正文,并指示文章应专门关于Nano Banana 2

结果,模型完全正确地写出了副标题,更棒的是,它确实撰写了文章——至少写了一部分。文章文本有点歪歪扭扭,但几乎可以阅读。

接着,我进一步挑战Nano Banana 2,要求它放大文章并增强文本。在这里,文本渲染出现了一点问题。文章写道:“谷歌发布了其生成式人工智能的最新突破‘Nano Banana 2’,承诺在图像生成保真度方面实现重大飞跃。”还不错,但随着继续阅读,文本保真度确实开始下降。

最后,我尝试要求Nano Banana 2绘制一张关于——嗯,它自己的图表。我提示道:“渲染一张Nano Banana 2在更大的Gemini框架内的架构图,并附上文字说明。”大约15秒后,我得到了这个结果。

仔细观察图表,我完全没有看到任何文本乱码,图表和说明文字似乎都说得通,至少在我这个外行看来是这样。将该图表输入Gemini应用后,处于“思考”模式的Gemini向我保证,这是一张“非常准确的”整体Gemini框架架构图,准确地描绘了新模型如何在图像工作流程中处理最多五个一致的角色。它还正确引用了全新的GemPix 2 Diffusion Renderer,这是Nano Banana 2的一个组件,负责将引擎原生的2K图像渲染提升至4K

总而言之,这非常令人印象深刻,尽管Nano Banana 2也引出了一个问题:OpenAI何时会针对去年的GPT Image 1.5推出后续产品。这可能随时发生,如果不是今天的话。


文章标签: #人工智能 #图像生成 #谷歌 #文本渲染 #4K分辨率

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。