Gemini 2.0 Flash原生图像生成

Gemini 2.0 Flash结合了多模态输入、增强推理和自然语言理解能力,以创建图像。

Gemini 2.0 Flash原生图像生成

在去年12,我们首次向可信测试人员推出了Gemini 2.0 Flash的原生图像输出功能。今天,我们将其开放给所有当前由Google AI Studio支持的地区进行开发者实验。你可以通过Google AI Studio中的Gemini 2.0 Flash实验版本(gemini-2.0-flash-exp)以及通过Gemini API来测试这一新功能。

Gemini 2.0 Flash结合了多模态输入、增强推理和自然语言理解能力,以创建图像。

以下是2.0 Flash多模态输出的一些示例:

1、文本与图像结合

使用Gemini 2.0 Flash讲述一个故事,它会用图片来配图,并在整个过程中保持角色和场景的一致性。提供反馈后,模型将重述故事或改变其绘图风格。

谷歌AI工作室中的故事和插图生成。演示视频

2、对话式图像编辑

Gemini 2.0 Flash通过多次自然语言对话帮助你编辑图像,非常适合迭代到完美的图像,或者一起探索不同的想法。

谷歌AI工作室中保持对话上下文的多轮对话图像编辑。演示视频

3、世界理解

与其他许多图像生成模型不同,Gemini 2.0 Flash利用世界知识和增强推理能力来创建“正确的”图像。这使其非常适合创建详细的现实主义图像——比如为食谱插图。虽然它努力追求准确性,但像所有语言模型一样,它的知识是广泛且一般的,不是绝对或完整的。

谷歌AI工作室中交错的文本和图像输出用于食谱。演示视频

4、文本渲染

大多数图像生成模型难以准确渲染长序列的文本,通常导致格式不良或难以辨认的字符,甚至拼写错误。内部基准测试显示,2.0 Flash在渲染方面比领先的竞争模型更强,并且非常适合创建广告、社交媒体帖子甚至是邀请函。

谷歌AI工作室中具有长文本渲染的图像输出。演示视频

5、结束语

通过Gemini API开始使用Gemini 2.0 Flash。了解更多关于图像生成的信息,请参阅我们的文档

from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "Generate a story about a cute baby turtle in a 3d digital art style. "
        "For each scene, generate an image."
    ),
    config=types.GenerateContentConfig(
        response_modalities=["Text", "Image"]
    ),
)

无论你是在构建AI代理、开发带有精美视觉效果的应用程序(如插图互动故事),还是在对话中头脑风暴视觉创意,Gemini 2.0 Flash都允许你仅用一个模型即可添加文本和图像生成功能。


原文链接:Experiment with Gemini 2.0 Flash native image generation

汇智网翻译整理,转载请标明出处