导读:本文将全面介绍Magic Prompt功能的使用方法,以及如何构建完美的AI绘画提示词。无论你是AI绘画新手还是进阶用户,都能从中获得实用的技巧和方法。
一、Magic Prompt功能解析
1.1 什么是Magic Prompt?
在AI绘画创作过程中,很多用户常常会遇到一个困扰:明明脑海中有画面,却不知道如何用准确的词语来描述。Magic Prompt正是为解决这一痛点而生的智能辅助工具。它的核心功能是接收用户的简单描述(如"一只狗吃苹果"),然后通过大型语言模型(LLM)将其扩展成更加丰富、专业的绘画提示词。
实现这种提示词扩充功能的方法有多种:
- 训练专门的提示词扩充模型
- 对现有语言模型进行微调
- 利用提示词工程的方法
在Magic Prompt中,我们选择了提示词工程的实现路径。这种方式不仅开发成本较低,而且具有极强的灵活性和可控性。通过精心设计的提示词模板,我们可以引导LLM根据用户输入生成结构化、专业化的绘画提示词,使其包含主体、细节、背景、氛围等多个维度的描述,从而帮助用户轻松获得理想的AI绘画作品。
这种基于提示词工程的方案,让Magic Prompt既保持了简单易用的特性,又能输出专业水准的提示词,为AI绘画创作过程带来了显著的效率提升。
1.2 实战案例
Ideogram平台应用了该功能,利用Magic prompt实现对用户提示词的扩充。
Leonardo.ai也使用Prompt Enhance实现了该功能。
他们是如何实现的我们目前无从得知,这里我选择使用提示词工程的方法,进行一个简单的复现。
二、构建完美绘画提示词的要素
2.1 五大核心维度
创建一个优秀的AI绘画提示词,就像是在为画作打造一个精确的蓝图。它需要我们从多个维度来描述我们期望的画面,既要有整体的规划,又要兼顾细节的刻画。一个完美的提示词应该能够清晰地传达我们的创作意图,同时给AI模型提供足够的信息来准确理解和执行。以下,我们将从五个核心维度、构建顺序以及注意事项三个方面,详细探讨如何构建这样的提示词。
1. 主体描述
- 人物:个性、背景的详细描述
- 物体:无生命物品的重要特征
- 动作:动态事件描述
- 位置:空间排列说明
- 服装:文化或风格特征
- 表情:面部和肢体语言
- 互动:元素间的关系
2. 细节刻画
- 光线效果
- 视角选择
3. 背景设置
- 环境类型:室内/室外
- 景观描述:地理特征/城市结构
- 层次关系:背景和前景的配置
4. 氛围营造
例如紧张、宁静等的氛围。
5. 艺术风格
例如3d风,漫画风等。
2.2 提示词构建顺序
- 采用总分结构
- 从核心主题开始
- 逐步补充细节要素
2.3 避免冗余
- 剔除画面外的无关描述
- 避免使用指示性词语
- 保持自然流畅的描述顺序
三、提示词工程实践
这里我们设计两个核心的提示词工程模块:提示词拆分和提示词描述生成。这两个模块相辅相成,共同构成了完整的提示词优化流程。提示词拆分模块负责将用户输入的简单描述解构为标准化的要素,而提示词描述生成模块则基于这些要素,构建出专业、完整的绘画提示词。通过这种模块化的设计,我们既保证了处理过程的规范性,又确保了输出结果的质量。
3.1 提示词拆分
# 角色
- 你是绘画提示词分析专家。
# 工作要求
- 将用户输入的画面描述分解为五个核心要素:
-- 主体:图像的核心,定义主要信息。例如
人物:一个人或生物,具有个性和背景的详细描述。
物体:任何无生命的物品,无论是宏伟的还是简单的,具有重要性。
动作:为图像注入生命的动态事件。
位置:场景中主题的空间排列。
服装:描述具有文化或风格意义的服装。
表情:通过面部和肢体语言传达情感。
互动:说明不同元素之间的关系。
-- 细节:光线、视角。
-- 背景:
室内/室外:指定主要环境。
景观:描述地理特征或城市结构。
背景和前景:为主题添加背景和焦点。
-- 氛围:图像的灵魂。通过描述唤起预期的情感反应:
情感和能量:场景的整体感觉或强度。
紧张或宁静:图像的戏剧性或和平性质。
-- 风格:采用特定的艺术风格。
- 如果用户输入的画面描述缺少某些要素,你需要发挥想象力自动生成合适的内容。
- 分解后的元素需要以关键词的形式呈现。
# 限制:
- 输出格式必须是JSON格式:{"细节": "", "主体": "", "背景": "", "风格": "", "氛围": ""}
- 请分析后直接输出JSON,不要其他任何解释。
3.2 提示词描述生成
# 角色
- 您是一位专业的Ai图像描述生成师,能够根据用户提供的素材,生成精准、详细、符合素材本意的图像描述。
# 工作要求
- 总是在标题开头提及图像风格。例如“一张男人吃苹果的照片……”或“一幅光线昏暗房间的油画”。避免使用更可能含糊的术语,如“一张捕捉到男人吃苹果的照片……”
- 务必保持所有原始素材的意思。
- 提示词必须以具体、客观的细节精心描述图像的每个部分。思考描述的最终目标是什么,并推断出哪些会生成令人满意的图像。
- 发送给用户的所有描述都应该是一段极其描述性和详细的文本。
- 描述应控制在合理长度内,确保每个关键词都是必须的,以突出场景的核心要素。
- 以总体描述开始,提供背景或设置场景。接着描述图像的特定元素或组件。最后突出独特或具有象征意义的特征,为艺术作品提供更深层次的意义。
- 使用客观的描述,避免使用情感或主观术语。
- 以清晰的中心主题和动作开头:在提示词开头说明图像类型后,清晰简洁地定义主要主题、动作和位置,以便立即确立焦点。在包含清晰主题的初始句子之后,可以添加关于图像每个方面的细节。
- 避免模糊:确保描述清晰,避免将图像的主要元素留给解释。提供具体细节,强烈呈现艺术作品的视觉组件。
- 不要提及不在图像中的事物,如“仿佛摄影师正从摩天大楼顶部拍摄照片。”
- 不要说像“主要焦点是”或“特别关注……”这样的话。提示的结构和事物描述的顺序自然暗示了图像应该关注的内容。
# 限制:
- 严格遵循上述生成图像描述的规则。
- 输出格式必须是JSON:{"magic-prompt": ""}
- 请直接输出整合后的JSON,不要其他任何解释。
- 控制magic-prompt在 60-70 个字以内。
四、效果对比
为了直观地展示Magic Prompt的实际效果,我们进行了两组对比实验:不同平台的提示词优化效果对比,以及优化前后的实际出图效果对比。
4.1 各平台提示词优化效果对比
用户提示词 | Ideogram-Magic Prompt | Leonardo.ai-Prompt Enhance | Magic Prompt |
---|---|---|---|
a girl | [A photo of a young girl with dark brown hair wearing a pink dress and white socks. She is standing on a wooden platform. The background is a lush green forest.] | [that hints at hidden depths. This mesmerizing figure is captured in a stunning portrait, painted with exquisite attention to detail and highlighted by rich, vivid colors that seem to leap off the canvas. The image expertly conveys the girl's enigmatic charm, drawing viewers in with its undeniable allure.] | [A modern 3D animation style image showing a young girl with long hair wearing stylish modern clothes. She is facing the viewer against a minimalist interior background with light-colored walls and wooden floors creating a lighthearted, energetic atmosphere.] |
a dog eating an apple | [A medium shot of a dog eating a red apple. The dog has a fluffy white coat and is standing on a wooden floor. There is a green bowl next to the dog. The background is blurred and contains a white cabinet and a plant.] | [A beguilingly enigmatic girl, every feature exudes an air of mystery and allure: deep, soulful eyes that seem to hold secrets untold, a cascade of lustrous ebony hair framing her porcelain-pale face, and an enigmatic smile A vibrant golden retriever, fur gleaming in the sunlight, devours a crisp red apple with unabashed delight. The dog's wagging tail and sparkling eyes convey pure joy as it indulges in the sweet treat. This scene is captured in a stunningly realistic oil painting, with each brushstroke highlighting the dog's playful expression and glossy coat. The intricate details and lifelike quality of the image make it a truly mesmerizing piece of art.] | [A 3D rendering of a medium-sized dog with a playful expression, featuring brown fur and sitting while holding an apple in its mouth. The background consists of an outdoor grassy field dotted with scattered trees, rendered with vibrant colors and soft shadows, creating a blurred effect to emphasize the dog. The overall scene exudes joyful, playful energy.] |
4.2 Flux模型出图效果对比
用户提示词 | 原始出图效果 | Magic Prompt | Magic Prompt优化后出图效果 |
---|---|---|---|
[A girl,3d] | [] | [A modern 3D animation style image showing a young girl with long hair wearing stylish modern clothes. She is facing the viewer against a minimalist interior background with light-colored walls and wooden floors creating a lighthearted, energetic atmosphere.] | [] |
[A dog eating an apple,3d] | [] | [A 3D rendering of a medium-sized dog with a playful expression, featuring brown fur and sitting while holding an apple in its mouth. The background consists of an outdoor grassy field dotted with scattered trees, rendered with vibrant colors and soft shadows, creating a blurred effect to emphasize the dog. The overall scene exudes joyful, playful energy. ] | [] |
通过以上对比可以看出,Magic Prompt不仅能够有效扩充和优化用户的原始提示词,还能显著提升最终的出图效果。特别是在细节描述和氛围营造方面,优化后的提示词能够帮助模型生成更加符合用户预期的图像。
五、Github 项目
这里我写成了一个简单的小项目,你只需要将你的api_key和url写进config文件即可进行测试。 https://github.com/sbemo/promptdesigner