OpenAI 为 ChatGPT 用户发布图像生成指南

一份旨在让图像生成更易用的产品指南

OpenAI 发布了一份新的 Academy 指南，介绍如何使用 ChatGPT 创建图像，为希望在不依赖复杂提示词写法的情况下获得更好图像生成和编辑效果的用户提供了一套实用框架。该文件于 4 月 10 日发布，将图像生成功能描述为一种建立在清晰表达、反复迭代和约束之上的工作流程，而不是依赖冗长或风格化指令。

这听起来或许很简单，但它反映出 AI 图像工具在呈现方式上的一个重要产品转向。早期公众使用图像生成器时，往往围绕提示技巧、审美关键词列表以及反复试错展开。OpenAI 的指南则把这项工具定位得更像一个协作式生产系统：先定义图像用途，描述主体和场景，指定视觉风格，然后通过小而明确的修改逐步改进结果。

换句话说，这家公司正试图让图像生成成为一项可控、可重复的任务，而不是一种新奇玩具。对于制作编辑视觉、设计概念、营销素材，或对现有图像进行改编的用户来说，这种差异很重要。

核心建议：要明确，不要花哨

这份指南最清晰的一点是，好的图像提示词不需要很长。OpenAI 表示，在大多数情况下，一到三句清晰的句子就足够了。目标是说明图像的用途、主要主体、正在发生什么、发生在何处，以及期望的视觉风格。如果布局、取景、光线或其他限制很重要，也应直接写明。

指南明确指出，清晰比机巧的措辞更有效，尤其是在涉及材质、纹理或光线等细节时。与其使用“美丽的光线”这类模糊表达，OpenAI 更建议采用直接描述，例如来自特定方向的柔和自然光。这种建议让图像提示更接近设计简报，而不是创意写作。

这是一个有用的区分，因为许多令人失望的 AI 图像结果都来自只传达氛围、却没有足够结构约束的提示词。模型可能理解用户想要的是精致或电影感的图像，但仍可能在构图上偏离、加入不需要的元素，或错过预期用途。该指南的做法是在指令层面减少歧义。

How we used Gemini to build Google I/O 2026

谷歌披露 Gemini 如何助力 I/O 2026 的制作

谷歌表示，团队借助 Gemini 和其他 AI 工具帮助制作 Google I/O 2026 的影片、视觉内容和活动元素，将这场大会呈现为 AI 辅助制作的内部示范。

Read article

编辑效果最好时，变更范围要严格受限

同样的理念在编辑现有图像的部分体现得更加明显。OpenAI 建议用户明确说明哪些内容应该改变，哪些内容必须保持不变。其示例指令很直接：只更改一个指定元素，其他一切都完全保持不变。

这一建议很重要，因为在迭代编辑中，许多生成式图像系统最容易失去一致性。用户可能希望修改背景颜色、调整亮度，或替换某个物体，同时保留构图和主体身份。宽泛的反馈会让模型重新解释整个场景。OpenAI 的指南认为，针对性的修改，以及反复强调固定约束，有助于避免这种偏移。

该文件还建议通过小步骤、逐层修订来提升结果。先从核心想法开始，然后一次只调整一个元素。示例修改包括让图像更亮、降低色彩饱和度、简化背景，或在保持相同构图的同时更换风格。其操作思路是，具体反馈比笼统的不满更容易被系统执行。

这使得这种工作流程对专业用途尤其相关。制作视觉素材的团队往往更需要可控的变化，而不是彻底重构。一个能够在修改风格的同时保留构图，或者除了一个细节之外其余都固定不变的模型，更容易融入真实的生产流程。

为什么这份指南不仅仅适合新手

从一个层面看，OpenAI 发布的是一份教程。从另一个层面看，它是在表达产品成熟度。公司正在把 ChatGPT 的图像生成功能定位为一种可以在“几分钟内”打磨成生产级素材的工具，而不仅仅是实验性的创意功能。指南称，用户可以通过自然语言提示生成原创图像、请求变体、调整构图或尺寸，并快速探索新的方向。

这种定位既降低了入门门槛，也为如何施加控制设定了预期。OpenAI 并不是要求用户掌握某种特殊语法，而是在告诉他们像艺术指导一样思考：定义目标、主体、环境、风格，以及不可妥协的约束。

所附示例提示强化了这种方法。它要求生成一幅精致的编辑插画，内容是一位人在桌前学习一项新的 AI 技能，场景中包含特定物品、干净简洁的背景，并明确要求避免出现标志、品牌引用、科幻图像和过于抽象的设计。这个示例之所以值得注意，不是因为它复杂，而是因为它目的明确且范围受控。

OpenAI 这份指南强调了什么

最有效的提示词通常只需一到三句清晰表达。
提示词应说明图像用途、主体、动作、场景和视觉风格。
具体约束有助于保留固定元素并减少不必要的变化。
编辑应通过小而有针对性的修改进行，而不是大幅重写。
直接表述比含糊或过度修饰的措辞更可靠。

随着 AI 图像工具从实验阶段走向日常使用，这类指南的重要性可能会越来越高。竞争问题不再只是哪个模型能生成更惊艳的图像，而是谁能更可靠地把普通指令转化为可控输出，并在多轮修改中保持稳定。OpenAI 的这份新 Academy 指南给出了一个务实答案。它不承诺魔法，只承诺更好的流程。

这也许才是更重要的进展。生成式工具的历史里，不乏能力惊人却不够易用的时刻。通过发布一套围绕简洁、具体和迭代展开的工作流程，OpenAI 正试图缩小这一差距。对用户而言，信息很简单：更好的图像并不那么依赖提示词神话，而在于给模型一个明确、具体的任务。

本文基于 OpenAI 的报道。阅读原文。

研究发现，AI 编码代理在社会科学中的使用差异极大

Anthropic 的一项研究发现，社会科学领域对编码代理的采用存在巨大差异，差异体现在性别、学科、职业阶段和大学排名上。

Read article

Originally published on openai.com

OpenAI 发布 ChatGPT 图像生成实用指南

一份旨在让图像生成更易用的产品指南

核心建议：要明确，不要花哨

谷歌披露 Gemini 如何助力 I/O 2026 的制作

编辑效果最好时，变更范围要严格受限

为什么这份指南不仅仅适合新手

OpenAI 这份指南强调了什么

研究发现，AI 编码代理在社会科学中的使用差异极大

Comments (0)

Related Articles

MISUMI以10亿美元AI制造押注启动美洲扩张

Keep Reading