stable diffusion 基本知识1

stable diffusion 基本知识1

stable diffusion整合包

推荐秋叶大佬的,一键启动就行,不用担心环境的问题

C站上的模型Type

C站:https://civitai.com/ ,里面筛选可以看到图片的左上角有模型的分类

大模型Checkpoint

基于sd的官方模型训练的模型,这类模型需要存放在sd的\models\Stable-diffusion文件夹中,在使用sd的时候就能切换到该模型了,一般在2G以上。

Checkpoint的命名也好理解,检查点,也就是基于sd的官方模型训练的一个存档点。

像模型名称为 xxx/Mix/ ,也就是通过几个模型合并的模型。

个人比较喜欢的动漫模型:counterfeit

存放路径:\models\Stable-diffusion


Textual Inversion(embedding)

新手理解:提示词打包。

将很多的词,打包成一个词汇,可以还原人物,三视图等

Trigger Words: 模型条件。当出现这些词的时候才会生效

存放路径:\embeddings

Lora

新手理解:

  1. 对人或物的复刻,比如下载了一个奥特曼的Lora,你挂载了这个Lora,生成的图片都会有奥特曼的脸型

  2. 训练画风:比如MoXin,就可以把画风转化为水墨风格,还有生成小人书风格

https://civitai.com/models/12597/moxin

https://civitai.com/models/18323/xiaorenshu

https://civitai.com/models/15365/hanfu

在使用的时候,可以查看一下作者生成的图使用的大模型是什么,然后选择与作者相同的大模型,契合度比较好,不然可能会有一些意想不到的图。

因为Lora的训练是需要一个大模型作为训练的,所以在使用的时候选择与作者相同的大模型是最好的了。

一定要正确设置lora的使用权重

Trigger Words: 模型条件。当出现这些词的时候才会生效

存放路径:\models\Lora

hypernetwork

新手理解:和embedding,Lora类似,对图片进行针对性的调整。主要用来训练画风,训练难度大。可以对画面风格的转换。

存放路径:\models\hypernetworks

VAE

新手理解:滤镜 + 微调;有些大模型已经内嵌了VAE,所以有些模型不用挂载VAE。

存放路径:\models\VAE


contronet

新手理解:可以让AI绘画,精确绘制更多姿势动作,而不仅仅是大头照,直立照等有限动作和姿势的图像,还能给手稿上色,根据草图生成相应人,物等。

存放路径:\extensions

contronet模型

ControlNet是需要专用模型的,否则无法使用相关功能引导图画。

https://huggingface.co/lllyasviel/ControlNet/tree/main/models

canny主要是边缘检测,属于比较通用的模型,Openpose就是传说中的姿势控制专用模型,而scribble是手稿模型,适合随手涂鸦然后生成一个精美的画面,可玩性很高。

存放路径:\models\ControlNet


Dreambooth

用来训练模型的

https://zhuanlan.zhihu.com/p/559556847

https://dreambooth.github.io/

https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

模型解析

不知道模型的类型,使用:https://spell.novelai.dev/ 查看

Clip跳过层

数值越大,越不把提示词当回事。

提示词

单词,词组,短句;效果差不多

权重: 增加:(old:0.8);减弱:[old:0.1]

混合: 1cat AND 1dog;1cat:2 AND 1dog

渐变: [keyword1 : keyword2: amount] 可以理解为[from:to:when] ,amount的范围是0到1,代表作用时机,如何实现? 举个例子:如果你的amount为0.75,而采样步骤是40步,那么会有40*0.75=30步的过程,提示词为keyword1,剩下10步提示词为keyword2 所以如果你试图均匀“混合”,最好将amount调为0.5左右。注意当amount的大小>1时,amount指的就是特定步数切换

所以由此诞生了一个非常有用的技巧,如下

1
2
3
4
5
我们将(ear:1.9)作为正向提示词
然后我们将这个放入反向提示词
[the: (ear:1.9): 0.5]
第一个关键词为一个毫无意义的词,第二个关键词为(ear:1.9)代表我们想要生成耳朵
假如你的采样步骤为20步,则前10步会减少一个毫无意义的东西出现的概率,后10则会执行(ear:1.9)来减少耳朵出现的概率

交替: [keyword1|keyword2] keyword1和keyword2在采样时被交替使用,[A|B|C|D] A,B,C,D按顺序被交替使用,[red hair|yellow hair], long hair, 1girl

参考

https://zhuanlan.zhihu.com/p/617026822?utm_id=0

https://my.oschina.net/qcloudcommunity/blog/8677109