叶子&都安的博客

2026年1月文献阅读记录

TPAMI 25 | MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation 论文链接：https://ieeexplore.ieee.org/document/10768939/ 代码链接：https://jiupinjia.github.io/metaearth/ 作者单位：北京航空航天大学背景（为什么要研究）生成式基础模型迅猛发展，能够为下游任务提供丰富的高质量样本。目前生成模型多针对自然图像场景，缺乏对遥感图像的适配，分辨率和信息密度有限。本研究致力于拓展生成模型的边界，将其从日常生活场景拓展到全球尺度的遥感观测场景。问题（现有方法不足）模型容量有限，无法支持全球的尺度的遥感生成生成图像的分辨率不可控或固定无法生成连续无界影图像动机（从问题到方法的思考过程）提高模型容量：基于denoising diffusion范式构造了600M参数量的生成模型生成分辨率可控：收集了大范围的遥感影像与对应地理信息的多分辨率数据集。提出自级联生成框架，逐级从低分辨率生成高分辨率连续无界图像生成：由于生成所固有的随机性，逐块生成后拼接的方案易产生视觉不连续。因此设计了一种噪声采样策略，通过分析生成条件和初始化噪声以保证风格连续性方法自级联框架：使用多阶段策略逐步提高生成的遥感图像的空间分辨率整体流程：第k+1阶段，接收第k阶段生成的低分辨率图像 $x_0^{(k)} \in \mathbb{R}^{H \times W}$ 和空间分辨率 $s_0^{(k)}$，以 $N=4$ 为倍数提升分辨率，则生成的高分辨率图像大小为 $NH \times NW$ 。第k+m阶段生成的图像大小为 $N^m H \times N^m W$ 单个阶段流程：编码低分辨率图像 $x_0^{(k)}$ 后上采样，与 $x_t^{(k+1)}$ 对齐并拼接，得到图像条件用Transformer论文中的正余弦编码方式分别编码分辨率 $s_0^{(k)}$ 和时间步 $t$，分别送入MLP后相加，得到时间和分辨率条件以上条件变量参与diffusion生成过程无界图像生成滑动窗口：重叠1/2，合并时各去掉1/4 噪声采样策略：参考DDIM的生成条件方程 $$ x_{t-1}^{(k)} = \sqrt{\alpha_{t-1}} (\frac{x_t^{(k)} - \sqrt{1-\alpha_t} \epsilon_{\theta}(x_t^{(k)},c_t^{(k)})}{\sqrt{\alpha_{t}}})+\sqrt{1-\alpha_{t-1}-\sigma_{t}^{2}}\cdot\epsilon_{\theta}(x_{t}^{(k)},c_{t}^{(k)})+\sigma_{t}\epsilon_{t} $$ $$ \sigma_{t}=\eta\sqrt{(1-\alpha_{t-1})/(1-\alpha_{t})}\sqrt{1-\alpha_{t}/\alpha_{t-1}}. $$ 当 $\eta=1$ 时为 DDPM，当 $\eta=0$ 时生成的图像完全由初始噪声和条件变量决定，具体实现中设置所有图像块的初始噪声均相同具体实现 ...

2026年1月文献阅读记录

TPAMI 25 | MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation 论文链接：https://ieeexplore.ieee.org/document/10768939/ 代码链接：https://jiupinjia.github.io/metaearth/ 作者单位：北京航空航天大学背景（为什么要研究）生成式基础模型迅猛发展，能够为下游任务提供丰富的高质量样本。目前生成模型多针对自然图像场景，缺乏对遥感图像的适配，分辨率和信息密度有限。本研究致力于拓展生成模型的边界，将其从日常生活场景拓展到全球尺度的遥感观测场景。问题（现有方法不足）模型容量有限，无法支持全球的尺度的遥感生成生成图像的分辨率不可控或固定无法生成连续无界影图像动机（从问题到方法的思考过程）提高模型容量：基于denoising diffusion范式构造了600M参数量的生成模型生成分辨率可控：收集了大范围的遥感影像与对应地理信息的多分辨率数据集。提出自级联生成框架，逐级从低分辨率生成高分辨率连续无界图像生成：由于生成所固有的随机性，逐块生成后拼接的方案易产生视觉不连续。因此设计了一种噪声采样策略，通过分析生成条件和初始化噪声以保证风格连续性方法自级联框架：使用多阶段策略逐步提高生成的遥感图像的空间分辨率整体流程：第k+1阶段，接收第k阶段生成的低分辨率图像 $x_0^{(k)} \in \mathbb{R}^{H \times W}$ 和空间分辨率 $s_0^{(k)}$，以 $N=4$ 为倍数提升分辨率，则生成的高分辨率图像大小为 $NH \times NW$ 。第k+m阶段生成的图像大小为 $N^m H \times N^m W$ 单个阶段流程：编码低分辨率图像 $x_0^{(k)}$ 后上采样，与 $x_t^{(k+1)}$ 对齐并拼接，得到图像条件用Transformer论文中的正余弦编码方式分别编码分辨率 $s_0^{(k)}$ 和时间步 $t$，分别送入MLP后相加，得到时间和分辨率条件以上条件变量参与diffusion生成过程无界图像生成滑动窗口：重叠1/2，合并时各去掉1/4 噪声采样策略：参考DDIM的生成条件方程 $$ x_{t-1}^{(k)} = \sqrt{\alpha_{t-1}} (\frac{x_t^{(k)} - \sqrt{1-\alpha_t} \epsilon_{\theta}(x_t^{(k)},c_t^{(k)})}{\sqrt{\alpha_{t}}})+\sqrt{1-\alpha_{t-1}-\sigma_{t}^{2}}\cdot\epsilon_{\theta}(x_{t}^{(k)},c_{t}^{(k)})+\sigma_{t}\epsilon_{t} $$ $$ \sigma_{t}=\eta\sqrt{(1-\alpha_{t-1})/(1-\alpha_{t})}\sqrt{1-\alpha_{t}/\alpha_{t-1}}. $$ 当 $\eta=1$ 时为 DDPM，当 $\eta=0$ 时生成的图像完全由初始噪声和条件变量决定，具体实现中设置所有图像块的初始噪声均相同具体实现 ...

Diffusion models for spatio-temporal-spectral fusion of homogeneous Gaofen-1 satellite platforms

同构高分一号卫星平台时空谱融合的扩散模型

Integrated fusion framework based on semicoupled sparse tensor factorization for spatio-temporal–spectral fusion of remote sensing images

基于半耦合稀疏张量分解的遥感图像时空光谱融合集成框架

An Integrated Framework for the Spatio–Temporal–Spectral Fusion of Remote Sensing Images

遥感图像时空光谱融合的综合框架

Deep-Learning-Based Spatio-Temporal-Spectral Integrated Fusion of Heterogeneous Remote Sensing Images

基于深度学习的异质遥感图像时空谱一体化融合

遥感生成

论文思路 RS2Change：以单幅遥感影像为基础，通过SAM等模型构建多模态控制条件，基于多模态条件生成第二时相图像，从而构造变化检测数据集代表方法：ChangeBridge、Changen2 Any2Change：以“语义分割、目标检测、实例分割”类型的数据集为基础，利用数据集内在条件，构造统一的生成框架，生成第二时相图像，从而将其转变为变化检测数据集代表方法：rs-paint、HySCDG Noise2Change：设计生成方式，从噪声中生成语义分割图等中间产物，再逐步生成双时相图像及对应变化掩码，从而构造变化检测数据集代表方法：Noise2Change 数据集 Awesome链接：https://github.com/wenhwu/awesome-remote-sensing-change-detection LEVIR-CD 链接：http://chenhao.in/LEVIR/ LEVIR-CD+ LEVIR-CC 链接：https://github.com/Chen-Yang-Liu/LEVIR-CC-Dataset Hi-UCD 链接：https://rsidea.whu.edu.cn/Hi-UCD_dataset.htm Hi-CNA 链接：https://rsidea.whu.edu.cn/Hi-CNA_dataset.htm WUSU 链接：https://rsidea.whu.edu.cn/resource_wusu_sharing.htm WHU-CD SYSU-CD MCLC-CD JL1-CD SECOND 对比方法文献阅读遥感图像变化生成 TPAMI 26 | Generating Any Changes in the Noise Domain 论文链接：https://doi.org/10.1109/TPAMI.2025.3643733 代码链接：https://github.com/chiangliu/noise2change 作者单位：湖南大学模型：从噪声域模拟变化，兼顾变化多样性和总体一致性。训练两个生成模型，A模型生成T1影像的语义分割图，根据预设地物比例构建T2影像语义分割图生成目标L，使用A模型生成T2影像的语义分割图，生成过程利用生成目标L逐步扰动采样噪声。B模型通过T1 T2影像的低分辨率语义掩码生成高分辨率语义掩码和对应影像，变化标签通过语义掩码得到数据：Noise2Change-27k CVPR 26 | ChangeBridge: Spatiotemporal Image Generation with Multimodal Controls for Remote Sensing 论文链接：https://doi.org/10.48550/arXiv.2507.04678 代码链接：https://github.com/zhenghuizhao/ChangeBridge 作者单位：武汉大学模型：利用Diffusion Bridge模型从事前影像生成事后影像，接受坐标文本、实例布局、语义分割图条件 TPAMI 25 | Changen2: Multi-Temporal Remote Sensing Generative Change Foundation Model 论文链接：https://ieeexplore.ieee.org/document/10713915 代码链接：https://github.com/Z-Zheng/pytorch-change-models 作者单位：斯坦福大学 ...