2026年1月文献阅读记录

TPAMI 25 | MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation 论文链接:https://ieeexplore.ieee.org/document/10768939/ 代码链接:https://jiupinjia.github.io/metaearth/ 作者单位:北京航空航天大学 背景(为什么要研究) 生成式基础模型迅猛发展,能够为下游任务提供丰富的高质量样本。目前生成模型多针对自然图像场景,缺乏对遥感图像的适配,分辨率和信息密度有限。本研究致力于拓展生成模型的边界,将其从日常生活场景拓展到全球尺度的遥感观测场景。 问题(现有方法不足) 模型容量有限,无法支持全球的尺度的遥感生成 生成图像的分辨率不可控或固定 无法生成连续无界影图像 动机(从问题到方法的思考过程) 提高模型容量:基于denoising diffusion范式构造了600M参数量的生成模型 生成分辨率可控:收集了大范围的遥感影像与对应地理信息的多分辨率数据集。提出自级联生成框架,逐级从低分辨率生成高分辨率 连续无界图像生成:由于生成所固有的随机性,逐块生成后拼接的方案易产生视觉不连续。因此设计了一种噪声采样策略,通过分析生成条件和初始化噪声以保证风格连续性 方法 自级联框架:使用多阶段策略逐步提高生成的遥感图像的空间分辨率 整体流程:第k+1阶段,接收第k阶段生成的低分辨率图像 $x_0^{(k)} \in \mathbb{R}^{H \times W}$ 和空间分辨率 $s_0^{(k)}$,以 $N=4$ 为倍数提升分辨率,则生成的高分辨率图像大小为 $NH \times NW$ 。第k+m阶段生成的图像大小为 $N^m H \times N^m W$ 单个阶段流程: 编码低分辨率图像 $x_0^{(k)}$ 后上采样,与 $x_t^{(k+1)}$ 对齐并拼接,得到图像条件 用Transformer论文中的正余弦编码方式分别编码分辨率 $s_0^{(k)}$ 和时间步 $t$,分别送入MLP后相加,得到时间和分辨率条件 以上条件变量参与diffusion生成过程 无界图像生成 滑动窗口:重叠1/2,合并时各去掉1/4 噪声采样策略:参考DDIM的生成条件方程 $$ x_{t-1}^{(k)} = \sqrt{\alpha_{t-1}} (\frac{x_t^{(k)} - \sqrt{1-\alpha_t} \epsilon_{\theta}(x_t^{(k)},c_t^{(k)})}{\sqrt{\alpha_{t}}})+\sqrt{1-\alpha_{t-1}-\sigma_{t}^{2}}\cdot\epsilon_{\theta}(x_{t}^{(k)},c_{t}^{(k)})+\sigma_{t}\epsilon_{t} $$ $$ \sigma_{t}=\eta\sqrt{(1-\alpha_{t-1})/(1-\alpha_{t})}\sqrt{1-\alpha_{t}/\alpha_{t-1}}. $$ 当 $\eta=1$ 时为 DDPM,当 $\eta=0$ 时生成的图像完全由初始噪声和条件变量决定,具体实现中设置所有图像块的初始噪声均相同 具体实现 ...

2026-01-06 · 2 分钟 · 叶都安

2026年1月文献阅读记录

TPAMI 25 | MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation 论文链接:https://ieeexplore.ieee.org/document/10768939/ 代码链接:https://jiupinjia.github.io/metaearth/ 作者单位:北京航空航天大学 背景(为什么要研究) 生成式基础模型迅猛发展,能够为下游任务提供丰富的高质量样本。目前生成模型多针对自然图像场景,缺乏对遥感图像的适配,分辨率和信息密度有限。本研究致力于拓展生成模型的边界,将其从日常生活场景拓展到全球尺度的遥感观测场景。 问题(现有方法不足) 模型容量有限,无法支持全球的尺度的遥感生成 生成图像的分辨率不可控或固定 无法生成连续无界影图像 动机(从问题到方法的思考过程) 提高模型容量:基于denoising diffusion范式构造了600M参数量的生成模型 生成分辨率可控:收集了大范围的遥感影像与对应地理信息的多分辨率数据集。提出自级联生成框架,逐级从低分辨率生成高分辨率 连续无界图像生成:由于生成所固有的随机性,逐块生成后拼接的方案易产生视觉不连续。因此设计了一种噪声采样策略,通过分析生成条件和初始化噪声以保证风格连续性 方法 自级联框架:使用多阶段策略逐步提高生成的遥感图像的空间分辨率 整体流程:第k+1阶段,接收第k阶段生成的低分辨率图像 $x_0^{(k)} \in \mathbb{R}^{H \times W}$ 和空间分辨率 $s_0^{(k)}$,以 $N=4$ 为倍数提升分辨率,则生成的高分辨率图像大小为 $NH \times NW$ 。第k+m阶段生成的图像大小为 $N^m H \times N^m W$ 单个阶段流程: 编码低分辨率图像 $x_0^{(k)}$ 后上采样,与 $x_t^{(k+1)}$ 对齐并拼接,得到图像条件 用Transformer论文中的正余弦编码方式分别编码分辨率 $s_0^{(k)}$ 和时间步 $t$,分别送入MLP后相加,得到时间和分辨率条件 以上条件变量参与diffusion生成过程 无界图像生成 滑动窗口:重叠1/2,合并时各去掉1/4 噪声采样策略:参考DDIM的生成条件方程 $$ x_{t-1}^{(k)} = \sqrt{\alpha_{t-1}} (\frac{x_t^{(k)} - \sqrt{1-\alpha_t} \epsilon_{\theta}(x_t^{(k)},c_t^{(k)})}{\sqrt{\alpha_{t}}})+\sqrt{1-\alpha_{t-1}-\sigma_{t}^{2}}\cdot\epsilon_{\theta}(x_{t}^{(k)},c_{t}^{(k)})+\sigma_{t}\epsilon_{t} $$ $$ \sigma_{t}=\eta\sqrt{(1-\alpha_{t-1})/(1-\alpha_{t})}\sqrt{1-\alpha_{t}/\alpha_{t-1}}. $$ 当 $\eta=1$ 时为 DDPM,当 $\eta=0$ 时生成的图像完全由初始噪声和条件变量决定,具体实现中设置所有图像块的初始噪声均相同 具体实现 ...

2026-01-06 · 2 分钟 · 叶都安

Diffusion models for spatio-temporal-spectral fusion of homogeneous Gaofen-1 satellite platforms

同构高分一号卫星平台时空谱融合的扩散模型

2024-07-02 · 1 分钟 · 叶都安

Integrated fusion framework based on semicoupled sparse tensor factorization for spatio-temporal–spectral fusion of remote sensing images

基于半耦合稀疏张量分解的遥感图像时空光谱融合集成框架

2024-04-15 · 1 分钟 · 叶都安

An Integrated Framework for the Spatio–Temporal–Spectral Fusion of Remote Sensing Images

遥感图像时空光谱融合的综合框架

2023-12-20 · 1 分钟 · 叶都安

Deep-Learning-Based Spatio-Temporal-Spectral Integrated Fusion of Heterogeneous Remote Sensing Images

基于深度学习的异质遥感图像时空谱一体化融合

2023-12-20 · 1 分钟 · 叶都安

遥感生成

论文思路 RS2Change:以单幅遥感影像为基础,通过SAM等模型构建多模态控制条件,基于多模态条件生成第二时相图像,从而构造变化检测数据集 代表方法:ChangeBridge、Changen2 Any2Change:以“语义分割、目标检测、实例分割”类型的数据集为基础,利用数据集内在条件,构造统一的生成框架,生成第二时相图像,从而将其转变为变化检测数据集 代表方法:rs-paint、HySCDG Noise2Change:设计生成方式,从噪声中生成语义分割图等中间产物,再逐步生成双时相图像及对应变化掩码,从而构造变化检测数据集 代表方法:Noise2Change 数据集 Awesome链接:https://github.com/wenhwu/awesome-remote-sensing-change-detection LEVIR-CD 链接:http://chenhao.in/LEVIR/ LEVIR-CD+ LEVIR-CC 链接:https://github.com/Chen-Yang-Liu/LEVIR-CC-Dataset Hi-UCD 链接:https://rsidea.whu.edu.cn/Hi-UCD_dataset.htm Hi-CNA 链接:https://rsidea.whu.edu.cn/Hi-CNA_dataset.htm WUSU 链接:https://rsidea.whu.edu.cn/resource_wusu_sharing.htm WHU-CD SYSU-CD MCLC-CD JL1-CD SECOND 对比方法 文献阅读 遥感图像变化生成 TPAMI 26 | Generating Any Changes in the Noise Domain 论文链接:https://doi.org/10.1109/TPAMI.2025.3643733 代码链接:https://github.com/chiangliu/noise2change 作者单位:湖南大学 模型:从噪声域模拟变化,兼顾变化多样性和总体一致性。训练两个生成模型,A模型生成T1影像的语义分割图,根据预设地物比例构建T2影像语义分割图生成目标L,使用A模型生成T2影像的语义分割图,生成过程利用生成目标L逐步扰动采样噪声。B模型通过T1 T2影像的低分辨率语义掩码生成高分辨率语义掩码和对应影像,变化标签通过语义掩码得到 数据:Noise2Change-27k CVPR 26 | ChangeBridge: Spatiotemporal Image Generation with Multimodal Controls for Remote Sensing 论文链接:https://doi.org/10.48550/arXiv.2507.04678 代码链接:https://github.com/zhenghuizhao/ChangeBridge 作者单位:武汉大学 模型:利用Diffusion Bridge模型从事前影像生成事后影像,接受坐标文本、实例布局、语义分割图条件 TPAMI 25 | Changen2: Multi-Temporal Remote Sensing Generative Change Foundation Model 论文链接:https://ieeexplore.ieee.org/document/10713915 代码链接:https://github.com/Z-Zheng/pytorch-change-models 作者单位:斯坦福大学 ...

2026-04-23 · 2 分钟 · 叶都安

2024-07-24 · 0 分钟 · 叶都安

2023-12-20 · 0 分钟 · 叶都安

0 分钟 · 叶都安