🐎叶子目前于东北林业大学攻读博士学位,主要研究方向为遥感解译,图像融合,高光谱变化检测,视频视觉关系识别。
🐍都安目前于山东大学攻读硕士学位,主要研究方向为时序预测。
技巧随记
包含 Conda、pip、Python、Latex、Linux 的一些技巧
ICLR 21 | Denoising Diffusion Implicit Models
ICLR 21 | Denoising Diffusion Implicit Models 论文链接:https://openreview.net/forum?id=St1giarCHLP 代码链接:https://github.com/ermongroup/ddim 作者单位:斯坦福大学 背景 DDPM 中,将参数 $T$ 设为一个大值能使生成过程更接近高斯分布,实现更好的性能,但会导致生成速度过慢 而 DDPM 的最终损失:$L(\theta):=\mathbb{E}_{t,x_0,\epsilon}[||\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)||^2]$ 仅需按照一步加噪公式,从 $q(x_t \mid x_0)$ 中采样一个 $x_t$,与联合分布 $q(x_{1:T} \mid x_0)$ 无关, 非马尔可夫过程的变分推断 将前向过程按反向方向重写(联合分布可使用任意顺序拆解)构造一组前向分布: $$ \begin{aligned} q_\sigma(x_{1:T} \mid x_0) &:= q_\sigma(x_T \mid x_0)\prod_{t=2}^Tq_\sigma(x_{t-1} \mid x_t,x_0)\\ q_\sigma(x_T \mid x_0) &= \mathcal{N}(\sqrt{\alpha_T}x_0,(1-\alpha_T)I)\\ q_\sigma(x_{t-1} \mid x_t,x_0) &= \mathcal{N}(\sqrt{\alpha_{t-1}}x_0+\sqrt{1-\alpha_{t-1}-\sigma_t^2} \cdot \frac{x_t-\sqrt{\alpha_t}x_0}{\sqrt{1-\alpha_t}},\sigma_t^2I) \end{aligned} $$ 其中,$\sigma\in\mathbb{R}_{\ge 0}^T$ 为分布的索引,当 $\sigma \rightarrow 0$ 时,若给定 $x_0,x_t$ 则 $x_{t-1}$ 固定
NeurIPS 20 | Denoising Diffusion Probabilistic Models
NeurIPS 20 | Denoising Diffusion Probabilistic Models 论文链接:https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html 代码链接:https://github.com/hojonathanho/diffusion 作者单位:加州大学伯克利分校 背景知识 期望公式: 连续变量:$E[X] = \int xp(x)\mathrm{d}x$ 函数:$E[g(X)] = \int g(x)p(x)\mathrm{d}x$ 高斯分布重参数化公式:$x \sim \mathcal{N}(\mu,\sigma^2) \Rightarrow x=\mu+\sigma\epsilon, \epsilon \sim \mathcal{N}(0,1)$ 前向过程: $$ \begin{aligned} x_0 &\sim q(x_0)\\ q(x_{1:T} \mid x_0) &:= \prod_{t=1}^T q(x_t \mid x_{t-1})\\ q(x_t \mid x_{t-1}) &:= \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)\\ \end{aligned} $$ 令 $\alpha_t := 1-\beta_t$,$\bar{\alpha}_t := \prod_{s=1}^t \alpha_s$,有一步加噪公式: $$ q(x_t \mid x_0) := \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t}x_0, (1-\bar{\alpha}_t)I) $$ 经重参数化后,采样公式为: ...
ICML 15 | Deep Unsupervised Learning using Nonequilibrium Thermodynamics
ICML 15 | Deep Unsupervised Learning using Nonequilibrium Thermodynamics 论文链接:http://proceedings.mlr.press/v37/sohl-dickstein15.html 代码链接:https://github.com/Sohl-Dickstein/Diffusion-Probabilistic-Models 作者单位:斯坦福大学 动机 概率模型(probabilistic models)一直在易处理与灵活性之间平衡 我们定义一个逐渐将一种分布转换为另一分布的马尔科夫链,生成式马尔科夫链即使用 diffusion 过程将一个简单的已知分布转换为目标数据分布 在此框架下模型用于估计单一 diffusion 过程中的微小扰动,从而降低处理难度;此外,任一平滑的目标分布均存在 diffusion 过程,因此此方法灵活度较高 方法 前向过程(diffusio 过程):将目标数据分布转换为简单已知分布 逆向过程:在有限的时间步下,从简单分布中生成目标数据分布 前向过程 $q(x^{(0 \cdots T)})$ 目标数据分布 $q(x^{(0)})$,简单已知分布 $\pi(y)$,马尔可夫 diffusion 核 $T_\pi(y \mid y';\beta)$,$\beta$ 为扩散速率,前向过程可以表示为: $$ \begin{aligned} \pi(y) &= \int \mathrm{d}y' T_\pi(y \mid y';\beta) \pi(y') \\ q(x^{(t)} \mid x^{(t-1)}) &= T_\pi(x^{(t)} \mid x^{(t-1)};\beta_t) \\ q(x^{(0 \cdots T)}) &= q(x^{(0)}) \prod_{t=1}^{T} q(x^{(t)} \mid x^{(t-1)}) \end{aligned} $$后向过程 $p(x^{(0 \cdots T)})$ 条件概率公式:$p(x \mid y) = \frac{p(x,y)}{p(y)}$ 链式展开:$p(x_1, \cdots ,x_n) = p(x_1)\prod_{i=2}^{n}p(x_i \mid x_1, \cdots ,x_{i-1})$ 边缘概率公式:$p(x) = \int p(x,y) \mathrm{d}y$ 贝叶斯公式:$p(x \mid y) = \frac{p(y \mid x) p(x)}{p(y)}$ 对于高斯扩散,在时间步数 $T$ 足够大、每一步扩散速率 $\beta$ 足够小时,前向扩散过程接近连续扩散过程。此时其反向转移可以近似采用与前向转移相同的分布族进行建模。因此,若前向扩散变换 $q(x^{(t)} \mid x^{(t-1)})$ 是高斯形式,则反向生成变换 $p(x^{(t-1)} \mid x^{(t)})$ 也可被视为高斯分布。后向过程可表示为: ...
2026年1月文献阅读记录
TPAMI 25 | MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation 论文链接:https://ieeexplore.ieee.org/document/10768939/ 代码链接:https://jiupinjia.github.io/metaearth/ 作者单位:北京航空航天大学 背景(为什么要研究) 生成式基础模型迅猛发展,能够为下游任务提供丰富的高质量样本。目前生成模型多针对自然图像场景,缺乏对遥感图像的适配,分辨率和信息密度有限。本研究致力于拓展生成模型的边界,将其从日常生活场景拓展到全球尺度的遥感观测场景。 问题(现有方法不足) 模型容量有限,无法支持全球的尺度的遥感生成 生成图像的分辨率不可控或固定 无法生成连续无界影图像 动机(从问题到方法的思考过程) 提高模型容量:基于denoising diffusion范式构造了600M参数量的生成模型 生成分辨率可控:收集了大范围的遥感影像与对应地理信息的多分辨率数据集。提出自级联生成框架,逐级从低分辨率生成高分辨率 连续无界图像生成:由于生成所固有的随机性,逐块生成后拼接的方案易产生视觉不连续。因此设计了一种噪声采样策略,通过分析生成条件和初始化噪声以保证风格连续性 方法 自级联框架:使用多阶段策略逐步提高生成的遥感图像的空间分辨率 整体流程:第k+1阶段,接收第k阶段生成的低分辨率图像 $x_0^{(k)} \in \mathbb{R}^{H \times W}$ 和空间分辨率 $s_0^{(k)}$,以 $N=4$ 为倍数提升分辨率,则生成的高分辨率图像大小为 $NH \times NW$ 。第k+m阶段生成的图像大小为 $N^m H \times N^m W$ 单个阶段流程: 编码低分辨率图像 $x_0^{(k)}$ 后上采样,与 $x_t^{(k+1)}$ 对齐并拼接,得到图像条件 用Transformer论文中的正余弦编码方式分别编码分辨率 $s_0^{(k)}$ 和时间步 $t$,分别送入MLP后相加,得到时间和分辨率条件 以上条件变量参与diffusion生成过程 无界图像生成 滑动窗口:重叠1/2,合并时各去掉1/4 噪声采样策略:参考DDIM的生成条件方程 $$ x_{t-1}^{(k)} = \sqrt{\alpha_{t-1}} (\frac{x_t^{(k)} - \sqrt{1-\alpha_t} \epsilon_{\theta}(x_t^{(k)},c_t^{(k)})}{\sqrt{\alpha_{t}}})+\sqrt{1-\alpha_{t-1}-\sigma_{t}^{2}}\cdot\epsilon_{\theta}(x_{t}^{(k)},c_{t}^{(k)})+\sigma_{t}\epsilon_{t} $$ $$ \sigma_{t}=\eta\sqrt{(1-\alpha_{t-1})/(1-\alpha_{t})}\sqrt{1-\alpha_{t}/\alpha_{t-1}}. $$ 当 $\eta=1$ 时为 DDPM,当 $\eta=0$ 时生成的图像完全由初始噪声和条件变量决定,具体实现中设置所有图像块的初始噪声均相同 具体实现 ...
2026年1月文献阅读记录
TPAMI 25 | MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation 论文链接:https://ieeexplore.ieee.org/document/10768939/ 代码链接:https://jiupinjia.github.io/metaearth/ 作者单位:北京航空航天大学 背景(为什么要研究) 生成式基础模型迅猛发展,能够为下游任务提供丰富的高质量样本。目前生成模型多针对自然图像场景,缺乏对遥感图像的适配,分辨率和信息密度有限。本研究致力于拓展生成模型的边界,将其从日常生活场景拓展到全球尺度的遥感观测场景。 问题(现有方法不足) 模型容量有限,无法支持全球的尺度的遥感生成 生成图像的分辨率不可控或固定 无法生成连续无界影图像 动机(从问题到方法的思考过程) 提高模型容量:基于denoising diffusion范式构造了600M参数量的生成模型 生成分辨率可控:收集了大范围的遥感影像与对应地理信息的多分辨率数据集。提出自级联生成框架,逐级从低分辨率生成高分辨率 连续无界图像生成:由于生成所固有的随机性,逐块生成后拼接的方案易产生视觉不连续。因此设计了一种噪声采样策略,通过分析生成条件和初始化噪声以保证风格连续性 方法 自级联框架:使用多阶段策略逐步提高生成的遥感图像的空间分辨率 整体流程:第k+1阶段,接收第k阶段生成的低分辨率图像 $x_0^{(k)} \in \mathbb{R}^{H \times W}$ 和空间分辨率 $s_0^{(k)}$,以 $N=4$ 为倍数提升分辨率,则生成的高分辨率图像大小为 $NH \times NW$ 。第k+m阶段生成的图像大小为 $N^m H \times N^m W$ 单个阶段流程: 编码低分辨率图像 $x_0^{(k)}$ 后上采样,与 $x_t^{(k+1)}$ 对齐并拼接,得到图像条件 用Transformer论文中的正余弦编码方式分别编码分辨率 $s_0^{(k)}$ 和时间步 $t$,分别送入MLP后相加,得到时间和分辨率条件 以上条件变量参与diffusion生成过程 无界图像生成 滑动窗口:重叠1/2,合并时各去掉1/4 噪声采样策略:参考DDIM的生成条件方程 $$ x_{t-1}^{(k)} = \sqrt{\alpha_{t-1}} (\frac{x_t^{(k)} - \sqrt{1-\alpha_t} \epsilon_{\theta}(x_t^{(k)},c_t^{(k)})}{\sqrt{\alpha_{t}}})+\sqrt{1-\alpha_{t-1}-\sigma_{t}^{2}}\cdot\epsilon_{\theta}(x_{t}^{(k)},c_{t}^{(k)})+\sigma_{t}\epsilon_{t} $$ $$ \sigma_{t}=\eta\sqrt{(1-\alpha_{t-1})/(1-\alpha_{t})}\sqrt{1-\alpha_{t}/\alpha_{t-1}}. $$ 当 $\eta=1$ 时为 DDPM,当 $\eta=0$ 时生成的图像完全由初始噪声和条件变量决定,具体实现中设置所有图像块的初始噪声均相同 具体实现 ...
感知地球(EarthSense)系统开发日志
记录开发 EarthSense 过程中的琐碎片段
高光谱数据整理
高光谱数据集信息汇总整理,数据网站汇总
End-to-End Video Scene Graph Generation With Temporal Propagation Transformer
利用时间传播变换器生成端到端视频场景图
Diffusion models for spatio-temporal-spectral fusion of homogeneous Gaofen-1 satellite platforms
同构高分一号卫星平台时空谱融合的扩散模型