TOOL

ComfyUI宠物肖像工作流

通过一些巧妙的技巧和精心的调整，你可以构建一个可靠地适用于绝大多数宠物的管道。它对姿势、光线等变化具有极强的适应性。

admin

Dec 13, 2024 • 8 min read

微信 ezpoda免费咨询：AI编程 | AI模型微调| AI私有化部署
AI工具导航 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

过去几年，AI 图像处理工具取得了长足进步。如今，创建美丽、风格鲜明的人物和动物肖像非常容易。但 AI 模型非常难以预测。因此，大多数工具都依赖用户（或某些人类）来剔除不良生成并找到最佳结果。

这是经常困扰 AI 工具的经典“人为因素”问题。事实证明，通过一些巧妙的技巧和精心的调整，你可以构建一个可靠地适用于绝大多数宠物的管道。它对姿势、光线等变化具有极强的适应性。

在这篇文章中，我将深入探讨它的工作原理以及实现这一点的所有巧妙技巧。

让我们开始吧！

1、关键成分

宠物肖像生成工作流的关键成分包括：

IPAdapter：用于图像风格的约束
ControlNet：用于边缘及深度约束

1.1 IPAdapter

该技术的关键是 IPAdapter。它本质上是一种使用图像而不是文本提示模型的方法（它字面意思是图像提示适配器）。因此，它不是采用文本嵌入，而是使用图像来获取嵌入。这非常强大，因为它可以直接准确地捕捉图像中的样式和结构，而不必有人将他们想要的图像内容转换为文本。在我们的 ComfyUI IPAdapter 节点中，我们有两个输入，一个用于样式，一个用于构图。我们使用水彩画图像作为样式，并将原始图像输入构图（因为我们想保持相同的构图，但改变样式）。

1.2 ControlNet

现在我们有了保持风格一致的方法，我们可以将注意力转向忠实地表现宠物。IPAdapters 严重偏向于图像质量，图像相似度会受到影响。所以我们需要做一些事情来保持输出看起来像输入的同一个对象。

答案是 ControlNet。ControlNets 是另一种很酷的技术，可以为图像生成过程提供额外的约束。使用 ControlNet，你可以以边缘、深度、人体姿势等形式指定约束。ControlNet 的一大特点是它们可以堆叠。因此，你可以拥有一个边缘ControlNet，强制输出具有与输入相似的边缘，以及一个深度ControlNet，强制输出具有相似的深度轮廓。这正是我在这里所做的。

Canny Edge ControlNet（左）和深度 ControlNet（右）的输出。它们强制输出看起来与输入相似。

事实证明，控制网不仅可以与其他控制网堆叠，而且还可以与上面提到的 IPAdapter 协同工作。因此，这些就是我们将要使用的工具 - IPAdapter 带有源图像以获取样式，ControlNet 带有 canny 边缘检测器以基于边缘进行约束，以及带有深度以基于深度轮廓进行约束的控制网。

就技术而言，这确实是你所需要的全部，但我从将机器学习用于生产的过程中学到的是，这些东西的很多价值都来自于花时间完美地调整所有参数。所以我想谈谈这一点。

2、参数微调

你是否曾经找到一个具有惊人示例输出的模型，并在自己的图像上尝试过它，却发现它们看起来很糟糕？通常，唯一的原因是模型尚未针对你的图像进行微调。有时感觉就像完全被阻碍了，因为我们甚至从哪里开始微调预先训练的模型？！以下是我关于这个主题的了解。这也超出了这个特定的管道，所以一般来说，拥有这些知识是很好的。

2.1 ControlNet

控制网非常强大，因此你必须小心控制它们对输出的影响。幸运的是，ComfyUI 中的自定义节点让我们可以减少控制网的影响，也可以随时停止它们的影响。因此，我们将边缘检测器的强度设置为 75%，并使其在 75% 时停止影响生成，深度检测器在 30% 时停止。我们在最后停止它们而不是仅仅降低它们的强度的原因是，这允许网络在最后几个步骤中“清理”由它们引起的任何伪影，而不会受到外部约束。它只是让图像更漂亮。因此，它只使用训练数据来使事物看起来尽可能漂亮，而忽略边缘和深度。

另一个需要调整的大事是 KSampler。这里有很多小事情，但我只简要介绍其中的一些：

2.2 KSampler - 步数

首先我们有步数（steps）。这实际上是模型重复运行的次数。它运行的次数越多，输出就越风格化，它与原始图像的距离就越远。这种效果通常不是那么明显，所以值得尝试一下。

2.3 KSampler - CFG

然后是 CFG。老实说，我并不完全理解这一点，但从它的名字—无分类器指导——我假设它控制着模型在不受提示约束的情况下修改图像的程度，以使其看起来更好。这也会显著影响输出图像，因此值得一试。

2.4 去噪

我在这里使用的另一个巧妙的小技巧是使用输入图像而不是空白图像来启动图像生成过程，并保持低去噪。这确保输出在颜色和纹理方面看起来相似。

2.5 文本提示

你会注意到我从未提到过的一件事是文本提示，直到现在！令人惊讶的是，因为这通常是你通常为扩散模型提供的唯一条件。但在这种情况下，我们有许多其他条件方式，文本提示通常只是碍事。所以在这种情况下，提示实际上只是“一只狗”。在一些风格更鲜明的肖像画中，我确实会更多地使用文本提示，比如厨师狗或浴室里的那只狗。

3、添加配件

本质上，这或多或少只是一个将图像转换为水彩肖像画的“AI 滤镜”。但它的灵活性令人惊叹。例如，为了制作狗洗澡的肖像画，我实际上只是在图像编辑工具中将图像放在一起，并将其用作输入！该模型负责统一所有内容并清理图像。

4、结束语

现在删除背景，添加一些文字，然后 Boom！你有一幅美丽的肖像画，捕捉了宠物的所有小细节，并且总是在最好的光线下描绘它们！

原文链接：Make Masterpiece Pet Portraits with ComfyUI

汇智网翻译整理，转载请标明出处