叶子&都安的博客

技巧随记

包含 Conda、pip、Python、Latex、Linux 的一些技巧

ICML 21 | Improved denoising diffusion probabilistic models

ICML 21 | Improved denoising diffusion probabilistic models 论文链接：http://proceedings.mlr.press/v139/nichol21a.html 代码链接：https://github.com/openai/improved-diffusion 作者单位：OpenAI 方法 DDPM 的 Log-likelihood 一直不高，该指标高往往表示生成模型能够覆盖更多中数据分布，本文通过一系列方法提高该指标学习方差本文发现 DDPM 的两种方差形式 $\sigma_t^2 = \beta_t$ 或 $\sigma_t^2 = \tilde{\beta}_t = \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t$ 仅在接近 $t=1$ 附近时有显著差别，而损失值也在接近 $t=1$ 时快速下降则通过学习在这两个方差间插值的形式进行优化，设： $$ \Sigma_\theta(x_t,t)=\text{exp}(v\log\beta_t+(1-v)\log\tilde{\beta}_t) $$ 模型学习并输出插值系数 $v$，损失函数因此变为： $$ \begin{aligned} L_{hybrid}&=L_{simple}+\lambda L_{vlb}\\ L_{vlb}&=\begin{cases} −\log p_\theta(x_0 \mid x_1),&&t=0\\ D_{KL}(q(x_{t−1} \mid x_t, x_0) || p_\theta(x_{t−1} \mid x_t)),&&t>0 \end{cases} \end{aligned} $$ 其中 $\lambda=0.001$，且在计算 $L_{vlb}$ 时，均值会被梯度截断，仅更新方差计算相关参数优化噪声 Schedule $\beta_t$ 线性增加，在后半段图像基本均为噪声优化为余弦形式 ...

ICCV 23 | Scalable Diffusion Models with Transformers

ICCV 23 | Scalable Diffusion Models with Transformers 论文链接：https://doi.org/10.1109/ICCV51070.2023.00387 代码链接：https://www.wpeebles.com/DiT.html 作者单位：加州大学伯克利分校方法前置技术：DDPM、IDDPM、CFG、LDM DiT 设计：遵循标准 Transformer 结构设计遵循标准 ViT 最佳实践输入：对于 $256 \times 256 \times 3$ 的图像，潜空间压缩后的 $z\in\mathbb{R}^{32 \times 32 \times 4}$ 分 Patch：patch size 越小计算量越高，但模型参数基本不变，不同模型变体中 patch size 取值为 $2,4,8$ 位置编码：基于频率的正余弦固定位置编码，不参与参数更新解码器：经过 DiT 块后使用 adaLN 调制一次，然后将隐藏层维度 $d$ 线性映射到 $p^22C$ 标准实践中输入通道数 $C=4$，最后将矩阵重排列回输入时的形状 $B,T,p^22C \rightarrow B,H/p, W/p,p^22C \rightarrow B,2C,H,W$ 模型大小：关键参数有 DiT 块个数 $N$、隐藏层维度 $d$、多头注意力头数 $h$；分如下四种变体 DiT 块对条件处理的四种设计上下文条件化：将时间戳 $t$ 和条件 $c$ 添加到图像 $z$ 的尾部，在最后一个块后剔除，类似 ViT 的 cls token，对计算量影响小交叉注意力：时间戳 $t$ 和条件 $c$ 成为单独的序列与图像 $z$ 序列作交叉注意力，增加了 15% 的计算量自适应层规范（adaLN）：使用时间戳 $t$ 和条件 $c$ 回归缩放和平移参数 $\gamma,\beta$，对图像 $z$ 进行调制，计算量增加最小自适应层规范+恒等初始化（adaLN-Zero）：在 $\gamma,\beta$ 外，还回归了单独的缩放参数 $\alpha$ 用于残差之前，并将 $\alpha$ 初始化为零，使得残差连接为恒等变换，计算量的增加同样忽略不计 DiT 模型命名：模型变体名/patch size。如 DiT-XL/2 表示 XLarge 变体且 $p=2$ ...

CVPR 22 | High-Resolution Image Synthesis with Latent Diffusion Models

CVPR 22 | High-Resolution Image Synthesis with Latent Diffusion Models 论文链接：https://doi.org/10.1109/CVPR52688.2022.01042 代码链接：https://github.com/CompVis/latent-diffusion 作者单位：慕尼黑大学背景先前的 Diffusion 模型在像素空间训练，计算成本高基于似然的模型训练通常包含感知压缩（去除高频细节）和语义压缩（模型学习语义和概念）两个阶段于是设计两阶段训练：自编码器提供感知等价的低维表示空间、在低维潜空间中训练 Diffusion 模型方法感知图像压缩感知图像压缩：自编码器通过感知损失和基于 patch 的对抗损失共同训练，压缩和恢复过程可表示为： $$ \begin{aligned} z &= \mathcal{E}(x)\\ \tilde{x} &= \mathcal{D}(x) \end{aligned} $$ 其中 $x\in\mathbb{R}^{H \times W \times C}, z\in\mathbb{R}^{h \times w \times c}$，下采样比例为 $f=H/h=W/w=2^m,m\in\mathbb{N}$ 为了避免潜空间方差过高，施加趋向高斯分布的 KL 正则化，类似 VAE；或在解码器中加入一个矢量量化层，类似 VQGAN 选择 KL 正则化后需要对得到的潜空间 $z$ 进行缩放，即 $z=z/\hat{\sigma}$，实际应用中常取 $1/\hat{\sigma}=0.18215$ 目标函数原始 Diffusion 模型目标函数： $$ L_{DM} = \mathbb{E}_{x,\epsilon\sim\mathcal{N}(0,1),t}[||\epsilon-\epsilon_\theta(x_t,t)||_2^2] $$ 本文提出的 Latent Diffusion 模型目标函数： ...

ICLR 21 | Denoising Diffusion Implicit Models

ICLR 21 | Denoising Diffusion Implicit Models 论文链接：https://openreview.net/forum?id=St1giarCHLP 代码链接：https://github.com/ermongroup/ddim 作者单位：斯坦福大学背景 DDPM 中，将参数 $T$ 设为一个大值能使生成过程更接近高斯分布，实现更好的性能，但会导致生成速度过慢而 DDPM 的最终损失：$L(\theta):=\mathbb{E}_{t,x_0,\epsilon}[||\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)||^2]$ 仅需按照一步加噪公式，从 $q(x_t \mid x_0)$ 中采样一个 $x_t$，与联合分布 $q(x_{1:T} \mid x_0)$ 无关，方法将前向过程按反向方向重写（联合分布可使用任意顺序拆解）构造一组前向分布： $$ \begin{aligned} q_\sigma(x_{1:T} \mid x_0) &:= q_\sigma(x_T \mid x_0)\prod_{t=2}^Tq_\sigma(x_{t-1} \mid x_t,x_0)\\ q_\sigma(x_T \mid x_0) &= \mathcal{N}(\sqrt{\alpha_T}x_0,(1-\alpha_T)I)\\ \end{aligned} $$ 其中，$\sigma\in\mathbb{R}_{\ge 0}^T$ 为分布的索引由一步加噪公式得： $$ \begin{aligned} x_t &= \sqrt{\alpha_t}x_0+\sqrt{1-\alpha_t}\epsilon_t, && \epsilon_t\sim\mathcal{N}(0,1)\\ \epsilon_t &= \frac{x_t-\sqrt{\alpha_t}x_0}{\sqrt{1-\alpha_t}} \end{aligned} $$ 于是设 $x_{t-1}$ 由干净图像、去除 $x_t$ 的噪声方向、额外的随机噪声组成： ...

NeurIPS 20 | Denoising Diffusion Probabilistic Models

NeurIPS 20 | Denoising Diffusion Probabilistic Models 论文链接：https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html 代码链接：https://github.com/hojonathanho/diffusion 作者单位：加州大学伯克利分校背景知识高斯分布重参数化公式：$x \sim \mathcal{N}(\mu,\sigma^2) \Rightarrow x=\mu+\sigma\epsilon, \epsilon \sim \mathcal{N}(0,1)$ 前向过程： $$ \begin{aligned} x_0 &\sim q(x_0)\\ q(x_{1:T} \mid x_0) &:= \prod_{t=1}^T q(x_t \mid x_{t-1})\\ q(x_t \mid x_{t-1}) &:= \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)\\ \end{aligned} $$ 令 $\alpha_t := 1-\beta_t$，$\bar{\alpha}_t := \prod_{s=1}^t \alpha_s$，边缘分布为： $$ q(x_t \mid x_0) := \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t}x_0, (1-\bar{\alpha}_t)I) $$ 经重参数化后，可得一步加噪公式为： $$ x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon, \epsilon \sim \mathcal{N}(0,1) $$后向过程： $$ \begin{aligned} p(x_T) &= \mathcal{N}(x_T;0,I)\\ p_\theta(x_{0:T}) &:= p(x_T)\prod_{t=1}^T p_\theta(x_{t-1} \mid x_t)\\ p_\theta(x_{t-1} \mid x_t) &:= \mathcal{N}(x_{t-1}; \mu_\theta(x_t,t), \Sigma_\theta(x_t,t))\\ \end{aligned} $$训练目标期望公式： ...

ICML 15 | Deep Unsupervised Learning using Nonequilibrium Thermodynamics

ICML 15 | Deep Unsupervised Learning using Nonequilibrium Thermodynamics 论文链接：http://proceedings.mlr.press/v37/sohl-dickstein15.html 代码链接：https://github.com/Sohl-Dickstein/Diffusion-Probabilistic-Models 作者单位：斯坦福大学动机概率模型（probabilistic models）一直在易处理与灵活性之间平衡我们定义一个逐渐将一种分布转换为另一分布的马尔科夫链，生成式马尔科夫链即使用 diffusion 过程将一个简单的已知分布转换为目标数据分布在此框架下模型用于估计单一 diffusion 过程中的微小扰动，从而降低处理难度；此外，任一平滑的目标分布均存在 diffusion 过程，因此此方法灵活度较高方法前向过程（diffusio 过程）：将目标数据分布转换为简单已知分布逆向过程：在有限的时间步下，从简单分布中生成目标数据分布前向过程 $q(x^{(0 \cdots T)})$ 目标数据分布 $q(x^{(0)})$，简单已知分布 $\pi(y)$，马尔可夫 diffusion 核 $T_\pi(y \mid y';\beta)$，$\beta$ 为扩散速率，前向过程可以表示为： $$ \begin{aligned} \pi(y) &= \int \mathrm{d}y' T_\pi(y \mid y';\beta) \pi(y') \\ q(x^{(t)} \mid x^{(t-1)}) &= T_\pi(x^{(t)} \mid x^{(t-1)};\beta_t) \\ q(x^{(0 \cdots T)}) &= q(x^{(0)}) \prod_{t=1}^{T} q(x^{(t)} \mid x^{(t-1)}) \end{aligned} $$后向过程 $p(x^{(0 \cdots T)})$ 条件概率公式：$p(x \mid y) = \frac{p(x,y)}{p(y)}$ 链式展开：$p(x_1, \cdots ,x_n) = p(x_1)\prod_{i=2}^{n}p(x_i \mid x_1, \cdots ,x_{i-1})$ 边缘概率公式：$p(x) = \int p(x,y) \mathrm{d}y$ 贝叶斯公式：$p(x \mid y) = \frac{p(y \mid x) p(x)}{p(y)}$ 对于高斯扩散，在时间步数 $T$ 足够大、每一步扩散速率 $\beta$ 足够小时，前向扩散过程接近连续扩散过程。此时其反向转移可以近似采用与前向转移相同的分布族进行建模。因此，若前向扩散变换 $q(x^{(t)} \mid x^{(t-1)})$ 是高斯形式，则反向生成变换 $p(x^{(t-1)} \mid x^{(t)})$ 也可被视为高斯分布。后向过程可表示为： ...

2026年1月文献阅读记录

TPAMI 25 | MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation 论文链接：https://ieeexplore.ieee.org/document/10768939/ 代码链接：https://jiupinjia.github.io/metaearth/ 作者单位：北京航空航天大学背景（为什么要研究）生成式基础模型迅猛发展，能够为下游任务提供丰富的高质量样本。目前生成模型多针对自然图像场景，缺乏对遥感图像的适配，分辨率和信息密度有限。本研究致力于拓展生成模型的边界，将其从日常生活场景拓展到全球尺度的遥感观测场景。问题（现有方法不足）模型容量有限，无法支持全球的尺度的遥感生成生成图像的分辨率不可控或固定无法生成连续无界影图像动机（从问题到方法的思考过程）提高模型容量：基于denoising diffusion范式构造了600M参数量的生成模型生成分辨率可控：收集了大范围的遥感影像与对应地理信息的多分辨率数据集。提出自级联生成框架，逐级从低分辨率生成高分辨率连续无界图像生成：由于生成所固有的随机性，逐块生成后拼接的方案易产生视觉不连续。因此设计了一种噪声采样策略，通过分析生成条件和初始化噪声以保证风格连续性方法自级联框架：使用多阶段策略逐步提高生成的遥感图像的空间分辨率整体流程：第k+1阶段，接收第k阶段生成的低分辨率图像 $x_0^{(k)} \in \mathbb{R}^{H \times W}$ 和空间分辨率 $s_0^{(k)}$，以 $N=4$ 为倍数提升分辨率，则生成的高分辨率图像大小为 $NH \times NW$ 。第k+m阶段生成的图像大小为 $N^m H \times N^m W$ 单个阶段流程：编码低分辨率图像 $x_0^{(k)}$ 后上采样，与 $x_t^{(k+1)}$ 对齐并拼接，得到图像条件用Transformer论文中的正余弦编码方式分别编码分辨率 $s_0^{(k)}$ 和时间步 $t$，分别送入MLP后相加，得到时间和分辨率条件以上条件变量参与diffusion生成过程无界图像生成滑动窗口：重叠1/2，合并时各去掉1/4 噪声采样策略：参考DDIM的生成条件方程 $$ x_{t-1}^{(k)} = \sqrt{\alpha_{t-1}} (\frac{x_t^{(k)} - \sqrt{1-\alpha_t} \epsilon_{\theta}(x_t^{(k)},c_t^{(k)})}{\sqrt{\alpha_{t}}})+\sqrt{1-\alpha_{t-1}-\sigma_{t}^{2}}\cdot\epsilon_{\theta}(x_{t}^{(k)},c_{t}^{(k)})+\sigma_{t}\epsilon_{t} $$ $$ \sigma_{t}=\eta\sqrt{(1-\alpha_{t-1})/(1-\alpha_{t})}\sqrt{1-\alpha_{t}/\alpha_{t-1}}. $$ 当 $\eta=1$ 时为 DDPM，当 $\eta=0$ 时生成的图像完全由初始噪声和条件变量决定，具体实现中设置所有图像块的初始噪声均相同具体实现 ...

2026年1月文献阅读记录

TPAMI 25 | MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation 论文链接：https://ieeexplore.ieee.org/document/10768939/ 代码链接：https://jiupinjia.github.io/metaearth/ 作者单位：北京航空航天大学背景（为什么要研究）生成式基础模型迅猛发展，能够为下游任务提供丰富的高质量样本。目前生成模型多针对自然图像场景，缺乏对遥感图像的适配，分辨率和信息密度有限。本研究致力于拓展生成模型的边界，将其从日常生活场景拓展到全球尺度的遥感观测场景。问题（现有方法不足）模型容量有限，无法支持全球的尺度的遥感生成生成图像的分辨率不可控或固定无法生成连续无界影图像动机（从问题到方法的思考过程）提高模型容量：基于denoising diffusion范式构造了600M参数量的生成模型生成分辨率可控：收集了大范围的遥感影像与对应地理信息的多分辨率数据集。提出自级联生成框架，逐级从低分辨率生成高分辨率连续无界图像生成：由于生成所固有的随机性，逐块生成后拼接的方案易产生视觉不连续。因此设计了一种噪声采样策略，通过分析生成条件和初始化噪声以保证风格连续性方法自级联框架：使用多阶段策略逐步提高生成的遥感图像的空间分辨率整体流程：第k+1阶段，接收第k阶段生成的低分辨率图像 $x_0^{(k)} \in \mathbb{R}^{H \times W}$ 和空间分辨率 $s_0^{(k)}$，以 $N=4$ 为倍数提升分辨率，则生成的高分辨率图像大小为 $NH \times NW$ 。第k+m阶段生成的图像大小为 $N^m H \times N^m W$ 单个阶段流程：编码低分辨率图像 $x_0^{(k)}$ 后上采样，与 $x_t^{(k+1)}$ 对齐并拼接，得到图像条件用Transformer论文中的正余弦编码方式分别编码分辨率 $s_0^{(k)}$ 和时间步 $t$，分别送入MLP后相加，得到时间和分辨率条件以上条件变量参与diffusion生成过程无界图像生成滑动窗口：重叠1/2，合并时各去掉1/4 噪声采样策略：参考DDIM的生成条件方程 $$ x_{t-1}^{(k)} = \sqrt{\alpha_{t-1}} (\frac{x_t^{(k)} - \sqrt{1-\alpha_t} \epsilon_{\theta}(x_t^{(k)},c_t^{(k)})}{\sqrt{\alpha_{t}}})+\sqrt{1-\alpha_{t-1}-\sigma_{t}^{2}}\cdot\epsilon_{\theta}(x_{t}^{(k)},c_{t}^{(k)})+\sigma_{t}\epsilon_{t} $$ $$ \sigma_{t}=\eta\sqrt{(1-\alpha_{t-1})/(1-\alpha_{t})}\sqrt{1-\alpha_{t}/\alpha_{t-1}}. $$ 当 $\eta=1$ 时为 DDPM，当 $\eta=0$ 时生成的图像完全由初始噪声和条件变量决定，具体实现中设置所有图像块的初始噪声均相同具体实现 ...

感知地球（EarthSense）系统开发日志

记录开发 EarthSense 过程中的琐碎片段