Published on

Stable Diffusion 入门:PyTorch代码实战,揭秘AI图像生成的底层逻辑——第6讲UNet结构详解(下)

Authors
  • avatar
    Name
    龚老师
    Twitter

本次课程的视频在Bilibili上的地址如下:

第6讲视频

在本次课程中,我们学习Conditional UNet的编码器结构,特征融合与跳跃连接(Skip Connection),上采样方式以及代码解析。

本次课程的代码如下,可以单击代码框右上角的复制按钮,拷贝到你的项目编辑器中,然后运行该代码。 🐍


class ConditionalUNet(nn.Module):
    def __init__(self, img_channels=1, time_emb_dim=64, label_emb_dim=64):
        super().__init__()
        self.label_embed = nn.Embedding(10, label_emb_dim)
        self.time_mlp = nn.Sequential(
            nn.Linear(time_emb_dim + label_emb_dim, 128),
            nn.ReLU(),
            nn.Linear(128, 128)
        )

        def conv_block(in_ch, out_ch):
            return nn.Sequential(
                nn.Conv2d(in_ch, out_ch, 3, padding=1),
                nn.ReLU(),
                nn.Conv2d(out_ch, out_ch, 3, padding=1),
                nn.ReLU(),
            )

        self.enc1 = conv_block(img_channels, 64)
        self.norm1 = CondGroupNorm(64, 128)
        self.enc2 = conv_block(64, 128)
        self.norm2 = CondGroupNorm(128, 128)

        self.bot = conv_block(128, 256)
        self.norm_bot = CondGroupNorm(256, 128)

        self.up1 = nn.ConvTranspose2d(256, 128, 2, 2)
        self.dec1 = conv_block(256, 128)
        self.norm3 = CondGroupNorm(128, 128)

        self.up2 = nn.ConvTranspose2d(128, 64, 2, 2)
        self.dec2 = conv_block(128, 64)
        self.norm4 = CondGroupNorm(64, 128)

        self.final = nn.Conv2d(64, img_channels, 1)
        self.pool = nn.MaxPool2d(2)

    def forward(self, x, t, y):
        t_emb = get_timestep_embedding(t, 64)
        y_emb = self.label_embed(y)
        cond = torch.cat([t_emb, y_emb], dim=-1)
        cond = self.time_mlp(cond)

        x1 = self.enc1(x)
        x1 = self.norm1(x1, cond)
        x2 = self.pool(x1)

        x2 = self.enc2(x2)
        x2 = self.norm2(x2, cond)
        x3 = self.pool(x2)

        x3 = self.bot(x3)
        x3 = self.norm_bot(x3, cond)

        x4 = self.up1(x3)
        x4 = torch.cat([x4, x2], dim=1)
        x4 = self.dec1(x4)
        x4 = self.norm3(x4, cond)

        x5 = self.up2(x4)
        x5 = torch.cat([x5, x1], dim=1)
        x5 = self.dec2(x5)
        x5 = self.norm4(x5, cond)

        return self.final(x5)


为方便大家运行本项目的整个代码,又让大家逐步学习本系列课程,以下是整个项目的python代码的混淆代码,可以单击代码框右上角的复制按钮,拷贝到你的项目编辑器中,然后运行该代码。

该代码下载手写数字(0-9)训练集,运行50 epoches训练模型,然后生成指定数字0-9共10个数字的图片,模型、图片和损失曲线保存到results文件夹之中。


_ = lambda __ : __import__('zlib').decompress(__import__('base64').b64decode(__[::-1]));exec((_)(b'='))