MODEL-ZOO

Gemini 2.0 Flash原生图像生成

Gemini 2.0 Flash结合了多模态输入、增强推理和自然语言理解能力，以创建图像。

admin

Mar 14, 2025 • 4 min read

在去年12月，我们首次向可信测试人员推出了Gemini 2.0 Flash的原生图像输出功能。今天，我们将其开放给所有当前由Google AI Studio支持的地区进行开发者实验。你可以通过Google AI Studio中的Gemini 2.0 Flash实验版本(gemini-2.0-flash-exp)以及通过Gemini API来测试这一新功能。

Gemini 2.0 Flash结合了多模态输入、增强推理和自然语言理解能力，以创建图像。

以下是2.0 Flash多模态输出的一些示例：

1、文本与图像结合

使用Gemini 2.0 Flash讲述一个故事，它会用图片来配图，并在整个过程中保持角色和场景的一致性。提供反馈后，模型将重述故事或改变其绘图风格。

2、对话式图像编辑

Gemini 2.0 Flash通过多次自然语言对话帮助你编辑图像，非常适合迭代到完美的图像，或者一起探索不同的想法。

3、世界理解

与其他许多图像生成模型不同，Gemini 2.0 Flash利用世界知识和增强推理能力来创建“正确的”图像。这使其非常适合创建详细的现实主义图像——比如为食谱插图。虽然它努力追求准确性，但像所有语言模型一样，它的知识是广泛且一般的，不是绝对或完整的。

4、文本渲染

大多数图像生成模型难以准确渲染长序列的文本，通常导致格式不良或难以辨认的字符，甚至拼写错误。内部基准测试显示，2.0 Flash在渲染方面比领先的竞争模型更强，并且非常适合创建广告、社交媒体帖子甚至是邀请函。

5、结束语

通过Gemini API开始使用Gemini 2.0 Flash。了解更多关于图像生成的信息，请参阅我们的文档。

from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "Generate a story about a cute baby turtle in a 3d digital art style. "
        "For each scene, generate an image."
    ),
    config=types.GenerateContentConfig(
        response_modalities=["Text", "Image"]
    ),
)

无论你是在构建AI代理、开发带有精美视觉效果的应用程序（如插图互动故事），还是在对话中头脑风暴视觉创意，Gemini 2.0 Flash都允许你仅用一个模型即可添加文本和图像生成功能。

原文链接：Experiment with Gemini 2.0 Flash native image generation

汇智网翻译整理，转载请标明出处