当前位置:首页 > 热水器 > 文章正文

首次不依靠生成模型一句话让AI修图!

编辑:[db:作者] 时间:2024-08-25 06:15:16

作者:网易互娱 AI Lab

2022 年是人工智能天生内容(AI Generated Content,AIGC)爆发的一年,个中一个热门方向便是通过笔墨描述(text prompt)来对图片进行编辑。

首次不依靠生成模型一句话让AI修图!

已有方法常日须要依赖在大规模数据集上演习的天生模型,不仅数据采集和演习本钱高昂,且会导致模型尺寸较大。
这些成分给技能落地于实际开拓和运用带来了较高的门槛,限定了 AIGC 的发展和创造力发挥。

针对以上痛点,网易互娱 AI Lab 与上海交通大学互助进行了研究,创新性地提出一套基于可微矢量渲染器的办理方案——CLIPVG,首次实现了在不依赖于任何天生模型的情形下,进行笔墨勾引的图像编辑。
该方案奥妙地利用矢量元素的特性对优化过程进行约束,因此不仅能够避免海量数据需求和高昂的演习开销,在天生效果上也达到了最优的水准。
其对应的论文《CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics》已被 AAAI 2023 收录。

部分效果如下(按次序分别为人脸编辑、车型修正、建筑天生、改色、花纹修正、字体修正)。

在天生效果方面,CLIPVG 比较业界已知的其他方案,将语义准确度提高了 15.9%,天生质量提高了 23.6%,即能够自动编辑并输出更贴合语义和无缺点的图像。
在框架灵巧性方面,由于 CLIPVG 可自动将像素图像转变为矢量图形,它比较其他基于像素图像的研究框架可更加灵巧地对图片颜色、形状、子区域等进行独立编辑。
在运用处景方面,由于 CLIPVG 完备不依赖天生模型,因此可适用于更广泛的场景,如人像风格化、卡通图编辑、字体设计和自动上色等等,它乃至能够实现多文本条件下对一张图的不同部分实现同时编辑。

思路和技能背景

从整体流程的角度,CLIPVG 首先提出了一种多轮矢量化方法,可鲁棒地将像素图转换到矢量域,并适应后续的图像编辑需求。
然后定义了一种 ROI CLIP loss 作为丢失函数,以支持对每个感兴趣区域 (ROI) 利用不同笔墨进行勾引。
全体优化过程通过可微矢量渲染器对矢量参数 (如色块颜色,掌握点等) 进行梯度打算。

CLIPVG 领悟了两个领域的技能,一是像素域的笔墨勾引图像编辑,二是矢量图像的天生。
接下来会依次先容干系的技能背景。

笔墨勾引图像翻译

要让 AI 在图像编辑时”听懂”笔墨勾引,范例方法是利用比拟图文预演习(Contrastive Language-Image Pre-Training,CLIP)模型。
CLIP 模型可以将笔墨和图像编码到可比较的隐空间中,并给出”图像是否符合笔墨描述”的跨模态相似度信息,从而建立起笔墨和图像之间的语义联系。
然后,事实上仅仅利用 CLIP 模型很难直接对付图像编辑进行有效勾引,这是由于 CLIP 紧张关注于图像的高层语义信息,而对付像素级别的细节缺少约束,导致优化过程很随意马虎陷入到局部最优(local minimum)或者对抗性的办理方案(adversarial solutions)。

现有的常见方法是将 CLIP 和一个基于 GAN 或 Diffusion 的像素域天生模型相结合,例如 StyleCLIP (Patashnik et al, 2021),StyleGAN-NADA (Gal et al, 2022),Disco Diffusion (alembics 2022),DiffusionCLIP (Kim, Kwon, and Ye 2022),DALLE 2 (Ramesh et al, 2022) 等等。
这些方案利用天生模型来对图像细节进行约束,从而填补了单独利用 CLIP 的毛病。
但同时,这些天生模型严重依赖于演习数据和打算资源,并且会让图像编辑的有效范围受到演习集图片的限定。
受限于天生模型的能力,StyleCLIP,StyleGAN-NADA,DiffusionCLIP 等方法都只能将单个模型限定在某个特定的领域,比如人脸图片。
Disco Diffusion、DALLE 2 等方法虽然能编辑任意图片,但须要海量的数据和打算资源来演习其对应的天生模型。

目前也有极少数不依赖于天生模型的方案,例如 CLIPstyler (Kwon and Ye 2022)。
CLIPstyler 在优化时会将待编辑图像分为随机小块(random patch),并在每个 patch 上利用 CLIP 勾引加强对付图像细节的约束。
问题是此时每个 patch 都会单独反响输入笔墨所定义的语义,导致该方案只能进行风格迁移(style transfer),而无法对图像进行整体的高层语义编辑。

不同于以上的像素域方法,网易互娱 AI Lab 提出的 CLIPVG 方案通过矢量图形的特性来对图像细节进行约束,以取代天生模型。
CLIPVG 可以支持任意输入图片,并能够进行泛用型的图像编辑。
其输出为标准的 svg 格式矢量图形,不受分辨率的限定。

矢量图像天生

一些现有事情考虑了笔墨勾引的矢量图形天生,例如 CLIPdraw (Frans, Soros, and Witkowski 2021),StyleCLIPdraw (Schaldenbrand, Liu, and Oh 2022)等。
范例的做法是将 CLIP 和一个可微矢量渲染器相结合,并从随机初始化的矢量图形开始逐渐逼近笔墨所表示的语义。
个顶用到的可微矢量渲染器为 Diffvg (Li et al. 2020),能够将矢量图形通过可微渲染栅格化为像素图。
CLIPVG 同样利用了 Diffvg 来建立矢量图到像素图之间的联系,不同于已有方法的是 CLIPVG 关注如何对已有图像进行编辑,而非直接天生。

由于已有图像中的绝大多数都是像素图,须要前辈行矢量化才能够利用矢量图形特性进行编辑。
现有的矢量化方法包括 Adobe Image Trace (AIT), LIVE (Ma et al. 2022)等,但是这些方法都没有考虑后续的编辑需求。
CLIPVG 在已有方法的根本上引入了多轮矢量化的增强手段,以针对性提高图像编辑时的鲁棒性。

技能实现

CLIPVG 的总体流程如下图所示。
首先会对输入的像素图进行不同精度的多轮矢量化 (Multi-round Vectorization),个中第 i 轮得到的矢量元素凑集记为i。
各轮得到的结果会被叠加到一起整体作为优化工具,并通过可微矢量渲染 (Differentiable Rasterization) 转换回到像素域。
输出图片的起始状态是输入图片的矢量化重修,然后按照笔墨描述的方向进行迭代优化。
优化过程会根据每个 ROI 的区域范围和关联笔墨,打算 ROI CLIP loss (下图中的

),并根据梯度优化各个矢量元素,包括颜色参数和形状参数。

全体迭代优化的过程可见下例,个中的勾引笔墨为”Jocker, Heath Ledger”(小丑,希斯 莱杰)。

矢量化

矢量图形可以定义为矢量元素的凑集,个中每个矢量元素由一系列参数掌握。
矢量元素的参数取决于其类型,以添补曲线 (filled curve) 为例,其参数为

,个中

是掌握点参数,

是 RGB 颜色和不透明度的参数。
对矢量元素做优化时存在一些自然的约束,比如一个元素内部的颜色始终是同等的,其掌握点之间的拓扑关系也是固定的。
这些特性很好地填补了 CLIP 对付细节约束的缺失落,能够极大增强优化过程的鲁棒性。

理论上来说,CLIPVG 可以借助任何一种已有方法来进行矢量化。
但是研究创造这样做会导致后续的图像编辑涌现几个问题。
首先,常日的矢量化方法能够担保图像在初始状态时相邻的矢量元素之间是严丝合缝的,但是各个元素会随着优化的过程发生移动,导致元素之间涌现“裂痕”。
其次, 有时候输入图像比较大略,只须要少量矢量元素即可拟合,而笔墨描述的效果须要更加繁芜的细节来表现,导致图像编辑时缺失落必要的原材料(矢量元素)。

针对以上问题, CLIPVG 提出了多轮矢量化的策略,每一轮会调用已有方法得到一个矢量化的结果,并进行依次叠加。
每一轮会相对前一轮提高精度,即用更小块的矢量元素进行矢量化。
下图表示了矢量化时不同精度的差异。

第 i 轮矢量化得到的矢量元素凑集可以表示为

, 而所有轮产生的结果叠加后得到的矢量元素凑集记作

,也便是 CLIPVG 总的优化工具。

丢失函数

类似于 StyleGAN-NADA 和 CLIPstyler,CLIPVG 利用了一个方向性的 CLIP 丢失来度量天生图像和描述笔墨之间的对应关系,其定义如下,

个中

表示输入的笔墨描述。

是一个固定的参考笔墨,在 CLIPVG 中设为 "photo",

是天生的图像(要优化的工具)。

是原始图像。

分别是 CLIP 的笔墨和图像编解码器。
T 和I 分别表示笔墨和图像的隐空间方向。
优化该丢失函数的目的是使得图像编辑后的语义变革方向符合笔墨的描述。
后面的公式中会忽略固定不变的 t_ref。
在 CLIPVG 中,天生的图像是矢量图形经由可微渲染的结果。
此外,CLIPVG 支持对每一个 ROI 分配不同的笔墨描述。
此时方向性的 CLIP loss 会转化为如下的 ROI CLIP loss,

个中 Ai是第 i 个 ROI 区域,是

其关联的笔墨描述。
R 是可微矢量渲染器,R()是渲染出来的整张图像。

是输入的整张图像。

代表一个裁剪操作,表示从图像 I 中将区域

裁剪出来。
CLIPVG 同时也支持了类似 CLIPstyler 中基于 patch 的增强方案,即从每个 ROI 中可以进一步随机裁剪出多个 patch, 并根据该 ROI 对应的笔墨描述对每个 patch 分别打算 CLIP loss。

总的 loss 是所有区域的 ROI CLIP loss 之和,即

这里的一个区域可以是一个 ROI, 或是从 ROI 中裁剪出来的一个 patch。

是各个区域对应的 loss 权重。

CLIPVG 会根据以上丢失函数对付矢量参数凑集进行优化。
优化时也可以只针对的一个子集,比如形状参数、颜色参数,或者特定区域对应的部分矢量元素。

实验结果

在实验部分,CLIPVG 首先通过溶解实验验证了多轮矢量化策略和矢量域优化的有效性,然后和已有的 baseline 进行了比拟,末了展示了特有的运用处景。

溶解实验

研究首先比拟了多轮矢量化 (Multi-round) 策略和只进行一轮矢量化 (One-shot) 的效果。
下图中第一行是矢量化后的初始结果,第二行是编辑后的结果。
个中 Nc表示矢量化的精度。
可以看到多轮矢量化不仅提高了初始状态的重修精度,并且能够有效肃清编辑后矢量元素之间的裂痕,并增强细节表现。

为了进一步研究矢量域优化的特性,论文比拟了 CLIPVG (矢量域方法) 和 CLIPstyler (像素域方法) 采取不同 patch size 进行增强时的效果。
下图中第一行为 CLIPVG 采取不同 patch size 的效果,第二行为 CLIPstyler 的效果。
其笔墨描述为 "Doctor Strange"。
整张图的分辨率为 512x512。
可以看到当 patch size 较小 (128x128 或 224x224) 时,CLIPVG 和 CLIPstyler 都会在局部小块区域涌现 "Doctor Strange"(奇异博士)代表性的红蓝配色,但是整张脸的语义并没有明显变革。
这是由于此时的 CLIP 勾引没有施加到图片整体。
当 CLIPVG 将 patch size 增加到 410x410 时可以看到明显的人物身份变革,包括发型以及脸部特色都按照笔墨描述进行了有效编辑。
如果去除 patch 增强,则语义编辑效果和细节清晰度都会有所低落,解释 patch 增强依然有正面效果。
不同于 CLIPVG,CLIPstyler 在 patch 较大或去除 patch 时依然无法实现人物身份的变革,而只是改变了整体颜色和一些局部纹理。
缘故原由是 patch size 放大后像素域的方法失落去了底层约束,而陷入到局部最优。
这一组比拟解释 CLIPVG 能够有效利用矢量域对付细节的约束,结合较大的 CLIP 浸染范围 (patch size) 实现高层语义编辑,这是像素域方法难以做到的。

比拟实验

在比拟实验中,研究首先将 CLIPVG 和两种能对任意图片进行编辑的像素域方法进行了比拟,包括 Disco Diffusion 和 CLIPstyler,下图中可以看到对付 "Self-Portrait of Vincent van Gogh" 的例子,CLIPVG 能够同时对付人物身份和绘画风格进行编辑,而像素域方法只能达到个中的一项。
对付 "Gypsophila",CLIPVG 相对 baseline 方法能更精确地编辑花瓣的数量和形状。
在 "Jocker, Heath Ledger" 和 "A Ford Mustang" 的例子中,CLIPVG 也能鲁棒地改变整体语义,相对来说 Disco Diffusion 随意马虎涌现局部瑕疵,而 CLIPstyler 一样平常只是调度了纹理和颜色。

(自上而下:梵高画、满天星、希斯莱杰小丑、福特野马)

研究者接着比拟了针对特定领域图片 (以人脸为例) 的像素域方法,包括 StyleCLIP、DiffusionCLIP 和 StyleGAN-NADA。
由于对利用范围进行了限定,这些 baseline 方法的天生质量常日更为稳定。
CLIPVG 在这组比拟中依然展现了不逊于已有方法的效果,尤其是和目标笔墨的符合程度往更高。

(自上而下:奇异博士、异鬼、僵尸)

更多运用

利用矢量图形的特性以及 ROI 级别的丢失函数,CLIPVG 能够支持一系列已有方法难以实现的创新玩法。
比如本文一开始展示的多人图的编辑效果,便是通过对付不同人物定义不同的 ROI 级别笔墨描述实现的。
下图的左边为输入,中间为 ROI 级别笔墨描述的编辑结果,右边为整张图只有一个整体笔墨描述的结果。
个中 A1 到 A7 区域对应的描述分别为 1. "Justice League Six"(正义同盟),2. "Aquaman"(海王),3. "Superman"(超人),4. "Wonder Woman"(神奇女侠),5. "Cyborg"(钢骨),6. "Flash,DC Superhero"(闪电侠,DC) 和 7. "Batman"(蝙蝠侠)。
可以看到 ROI 级别的描述可以对各个人物进行分别编辑,而整体描述则无法天生有效的个体身份特色。
由于各个 ROI 相互之间是有重叠的,已有方法纵然对每个人物单独编辑,也很难达到 CLIPVG 的整体折衷性。

CLIPVG 还可以通过优化一部分的矢量参数,实现多种分外的编辑效果。
下图中第一行展示了只编辑部分区域的效果。
第二行展示了锁定颜色参数,只优化形状参数的字体天生效果。
第三行和第二行相反,通过只优化颜色参数来达到重新上色的目的。

(自上而下:子区域编辑、字体风格化、图像改色)

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rsq/152560.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com