2023-05-06

stable diffusion 基本知识1

stable diffusion整合包

推荐秋叶大佬的，一键启动就行，不用担心环境的问题

C站上的模型Type

C站：https://civitai.com/ ，里面筛选可以看到图片的左上角有模型的分类

大模型Checkpoint

基于sd的官方模型训练的模型，这类模型需要存放在sd的\models\Stable-diffusion文件夹中，在使用sd的时候就能切换到该模型了，一般在2G以上。

Checkpoint的命名也好理解，检查点，也就是基于sd的官方模型训练的一个存档点。

像模型名称为 xxx/Mix/ ，也就是通过几个模型合并的模型。

个人比较喜欢的动漫模型：counterfeit

存放路径：\models\Stable-diffusion

Textual Inversion（embedding）

新手理解：提示词打包。

将很多的词，打包成一个词汇，可以还原人物，三视图等

Trigger Words: 模型条件。当出现这些词的时候才会生效

存放路径：\embeddings

Lora

新手理解：

对人或物的复刻，比如下载了一个奥特曼的Lora，你挂载了这个Lora，生成的图片都会有奥特曼的脸型
训练画风：比如MoXin，就可以把画风转化为水墨风格，还有生成小人书风格

https://civitai.com/models/12597/moxin

https://civitai.com/models/18323/xiaorenshu

https://civitai.com/models/15365/hanfu

在使用的时候，可以查看一下作者生成的图使用的大模型是什么，然后选择与作者相同的大模型，契合度比较好，不然可能会有一些意想不到的图。

因为Lora的训练是需要一个大模型作为训练的，所以在使用的时候选择与作者相同的大模型是最好的了。

一定要正确设置lora的使用权重

Trigger Words: 模型条件。当出现这些词的时候才会生效

存放路径：\models\Lora

hypernetwork

新手理解：和embedding，Lora类似，对图片进行针对性的调整。主要用来训练画风，训练难度大。可以对画面风格的转换。

存放路径：\models\hypernetworks

VAE

新手理解：滤镜 + 微调；有些大模型已经内嵌了VAE，所以有些模型不用挂载VAE。

存放路径：\models\VAE

contronet

新手理解：可以让AI绘画，精确绘制更多姿势动作，而不仅仅是大头照，直立照等有限动作和姿势的图像，还能给手稿上色，根据草图生成相应人，物等。

存放路径：\extensions

contronet模型

ControlNet是需要专用模型的，否则无法使用相关功能引导图画。

https://huggingface.co/lllyasviel/ControlNet/tree/main/models

canny主要是边缘检测，属于比较通用的模型，Openpose就是传说中的姿势控制专用模型，而scribble是手稿模型，适合随手涂鸦然后生成一个精美的画面，可玩性很高。

存放路径：\models\ControlNet

Dreambooth

用来训练模型的

https://zhuanlan.zhihu.com/p/559556847

https://dreambooth.github.io/

https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

模型解析

不知道模型的类型，使用：https://spell.novelai.dev/ 查看

Clip跳过层

数值越大，越不把提示词当回事。

提示词

单词，词组，短句；效果差不多

权重：增加：(old:0.8)；减弱：[old:0.1]

混合： 1cat AND 1dog；1cat:2 AND 1dog

渐变： [keyword1 : keyword2: amount] 可以理解为[from:to:when] ，amount的范围是0到1，代表作用时机，如何实现？举个例子：如果你的amount为0.75，而采样步骤是40步，那么会有40*0.75=30步的过程，提示词为keyword1，剩下10步提示词为keyword2 所以如果你试图均匀“混合”，最好将amount调为0.5左右。注意当amount的大小>1时，amount指的就是特定步数切换

所以由此诞生了一个非常有用的技巧，如下

我们将(ear:1.9)作为正向提示词
然后我们将这个放入反向提示词
[the: (ear:1.9): 0.5]
第一个关键词为一个毫无意义的词，第二个关键词为(ear:1.9)代表我们想要生成耳朵
假如你的采样步骤为20步，则前10步会减少一个毫无意义的东西出现的概率，后10则会执行(ear:1.9)来减少耳朵出现的概率

参考

https://zhuanlan.zhihu.com/p/617026822?utm_id=0

https://my.oschina.net/qcloudcommunity/blog/8677109