论文:PromptCharm: Text-to-Image Generation through Multi-modal Prompting and Refinement

作者:Zhijie Wang, Yuheng Huang, Da Song, Lei Ma, Tianyi Zhang

发表:CHI 2024

生成式人工智能极大地推动了文生图领域的发展。目前的Stable Diffusion模型已经能合成具有强烈美感的高质量图像。但由于模型的复杂性以及迭代编辑和优化prompt所需的大量工作,其对于新手用户仍然具有挑战性。为了应对这些挑战,该文提出了 PromptCharm,通过多模态prompt工程和优化来促进文本到图像的创建。系统会自动细化和优化用户的初始提示,也支持用户在大型数据库中探索和选择不同的图像样式。系统还能通过可视化模型的注意力值来呈现模型解释。该团队对 12 名参与者进行了两项用户调查。结果表明,与使用缺乏交互或可视化支持的两种变体相比,使用 PromptCharm 的用户能够创建质量更高且更符合用户期望的图像。

论文链接

背景介绍

如今的SOTA文生图模型,例如stable diffusion和DALL-E,可以很好地生成具有高质量和高保真度的图像。而根据一些近来的研究可知,AI生成的图像的质量对prompt高度敏感,prompt工程也已成为文生图的一个关键步骤。以往的研究表明,新手用户在撰写prompt时经常会遇到困难,具体来说,新手用户在尝试编写模型能够有效解释的prompt时,往往会经历一个陡峭的学习曲线,同时还要保持自己的创作意图。所以对于新手用户来说,写一个好的prompt通常会变成一个试错过程,一边需要不断尝试写出能让模型有效理解并且保留自身创作意图的prompt,还需要考虑加上一些涉及创意设计方面领域知识的特定修饰词等内容来提升图像的美感。论文中经常提到一个概念叫修饰词,可以理解为对生成图像的风格和质量有重大影响的关键词

相关工作

Text-to-Image Generation

文本到图像的生成是生成人工智能领域的关键功能。给定文本输入,人工智能模型旨在生成内容与文本描述一致的图像。 AlignDraw 是文本到图像生成领域的开创性尝试之一。然后Transformer模型在各种 NLP 任务中的成功也启发了计算机视觉研究人员。基于Transformer的架构后来在文本到图像生成方面表现出了较好的性能。

2021 年,Open AI 发布了 DALL-E,这是一种基于 GPT-3 的文本到图像生成模型。微软提出了 NUWA,一种预训练的 3D 编码器-解码器转换器,用于各种视觉合成任务,包括文本到图像的生成。而近年来,diffusion模型成为文本到图像生成研究的主导方法,与基于 GAN 和 Transformer 的方法相比,diffusion模型能够生成分辨率更高的图像。

然后,CLIP进一步增强了扩散模型理解语言和视觉概念的能力。因此,SOTA 的文本到图像生成模型(例如,Stable Diffusion [53] 和 DALL-E2[49])主要基于将Diffusion模型与 CLIP 相结合的流程。

Prompt Engineering

生成模型的广泛使用提高了prompt编写的重要性。因此,越来越多的技术被提出用于prompt工程。例如,少样本prompt和思维链prompt都是生成语言模型的代表性prompt技术。除此之外,还有一些关于prompt指南的研究。为了确定可以有效帮助文本到图像模型生成连贯输出的提示。有研究者与从业者进行用户研究,得出一套提示设计指南,还特别发现风格关键字(修饰词)在影响生成图像的质量方面发挥着至关重要的作用。最近一项关于文本到图像生成的提示修饰符分类的研究也证实了这一点。特别发现风格关键字(修饰词)在影响生成图像的质量方面发挥着至关重要的作用。最近一项关于文本到图像生成的prompt修饰词分类的研究也证实了这一点。

由于人工编写prompt需要大量的手动工作,因此另一项研究集中在prompt自动生成上,具体来说,对于文本到图像的生成,最近的研究工作一直集中在自动优化用户输入的prompt并使用有效的图像样式关键字(修饰词)对其进行扩展。

具体实现细节

PromptCharm包含三个部分:(1)prompt改进和探索。(2)基于注意力的模型解释和优化。(3)对图像直接操作。

1)prompt改进和探索

系统首先利用了Microsoft发布的最先进的基于强化学习的prompt优化模型Promptist。能够优化用户的输入提示,同时保留其原始的创作意图,主要是添加一些修饰词。

在 PromptCharm中,用户可以在文本框中描述他们希望在生成的图像中看到的内容(如下图)。当用户点击PROMPT按钮时,系统会用 Promptist 优化这个输入的prompt。优化后的prompt将显示在中间文本框内,供用户与初始prompt进行比较。当用户点击DIFFUSE按钮时,扩散模型将生成一个新图像。

prompt refinement

(2)基于注意力的模型解释和优化

Transformer模型计算出的注意力可能与用户的意图严重不一致,对于文生图,图像内容就可能与文本提示不一致。Stable Diffusion模型作为一个多模态模型,利用交叉注意力机制来统一模型对输入文本提示和生成图像的关注。所以调整模型的注意力可以解决用户和模型之间的概念不对齐的问题。系统对关键词注意力的调整过程就是简单的对于每个属于选定关键词的token,在每次经过交叉注意力层输出后立马与用户定义的注意力因子相乘。

此外,为了提供反馈,帮助用户理解生成的结果,系统使用基于注意力的可解释AI技术DAAM 在输入的prompt文本和生成的图像上呈现出模型的解释(如下图),比如点击moon就能看到选中图像中对应的月亮,这是一种注意力可视化,另一种就是在prompt中的每个Token根据其显著性进行着色,token对生成的贡献越高,其背景颜色就越深。这两种解释都是根据对应Token上的交叉注意分数生成的。

model explanation

3)对图像直接操作

除了注意力调整之外,PromptCharm 还支持通过图像修复来优化 AI 生成的图像。此图像修复功能的目的是允许用户重新渲染生成图像中不需要的小区域,而无需进一步制作prompt。这是直接操纵思想的高度激发[56, 57]。为了实现这一目标,作者使用了stable diffusion模型的 image inpainting管道。

要修改图像,用户可以在他们想要重新生成的区域上进行刷涂,以创建阴影(下图 a)。当用户单击 INPAINT 按钮时,系统将渲染一个新图像,其中仅阴影部分的像素会被更改(下图b)。用户还可以通过在文本框中键入prompt来指导修复过程(下图c)。如果未给prompt,则修复将仅由图像的未遮蔽区域引导。

用户界面

下图是系统的UI:

(a)用户在文本框中键入其初始输入prompt,系统随后会自动调整用户的prompt。

(b)通过这里的四个选项探索不同的图像风格。

(c)借助模型注意力可视化来检查生成的图像。

如果用户想要优化图像,可以进一步:

(d)调整模型对关键词的注意力

(e)直接编辑图像

model explanation

实验

作者进行了两项用户实验来评估该系统的实用性和可用性。

1.封闭式任务。

作者创建了 PromptCharm 的两种变体作为基准系统:一种仅带有纯文本编辑器,另一种包含提示细化模型。

实验一包括三个环节,邀请了十二位参与者,大多数拥有一年或者不到一年的生成式AI经验。在每一个环节,每一位参与者都被要求用三种工具之一复制一张给定的图像。

SSIM

self-score

第一幅图是,作者使用SSIM(结构相似性指数)直接将用户生成的图像与目标进行比较,这个指标用于衡量两幅图像之间相似度。Promptcharm是第三行,均值和方差上都是更优的。第二幅图是,让参与者自我评价他们的作品与目标的相似性。紫色代表的promptcharm大都给的高分。可以发现,与两个baseline用户相比,PromptCharm 用户在客观和主观的指标上都取得了明显更好的表现。

2.开放式任务

在第二个用户研究中,作者在启用开放式任务的同时,使用了同样的baseline。 并邀请了另一组十二名参与者。同样大多数拥有一年或者不到一年的生成式AI经验。在每个环节中,参与者被要求根据特定场景创建一个图像。 例如,一只狗正在和一只猫玩耍。

下面是实验二的结果,可以发现紫色柱子代表的 PromptCharm 用户再次在三组工具中取得了最佳表现。
他们觉得自己的创作更美观,更符合他们的期望。

SSIM

SSIM

启发和局限性

启示

  • 模型的可解释性可以有效地协助prompt工程,在模型出现错误结果时很容易进行对应的prompt修改
  • 丰富prompt工程中的用户反馈循环
  • 缩小概念差距,让用户能够清楚地知道怎么进行目标操作
  • Exploration vs. Exploitation两种模式并存,让不同经验的用户都能实现目标

局限性

  • 对图编辑的表现一般,拖拽等交互功能缺乏
  • 泛化问题,对于一些其他模型需要进行功能替代或者调整
  • 用户实验不完善,限制参与者的创作自由。并且都是新手用户参加,缺少专家评估。

总结

该文介绍了 PromptCharm,一个混合主动系统,通过多模态提示和细化帮助新手用户生成文本到图像。PromptCharm提供自动提示优化,以帮助用户在 SOTA 模型 Promptist 的帮助下优化其输入文本提示。用户可以通过在 PromptCharm中探索不同的图像样式和关键字来进一步改进他们的提示。

为了支持用户有效地完善其图像,PromptCharm通过模型注意力可视化提供模型说明。一旦用户注意到图像中任何不令人满意的部分,他们就可以通过调整模型对关键字的注意力来优化它,或者遮罩这些区域并通过图像修复模型重新生成它。

最后,PromptCharm集成了版本控制,使用户能够轻松跟踪他们的创作。通过对 12 名参与者(包括封闭式任务)的用户研究,该文发现,与两种基线方法相比,使用 PromptCharm 的参与者可以创建与给定目标图像非常相似的图像。在另一项针对 12 名参与者的用户研究中,使用 PromptCharm的参与者认为他们生成的图像是在美学上更令人愉悦,更符合他们的期望。最后,该文讨论了 PromptCharm的设计意义,并提出了几个有趣的未来研究机会。



Questions & Discussion: ✉️ zjuvis@cad.zju.edu.cn