剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达SOTA

7.5

深览指数

科技36 氪·超神经HyperAI·昨天 20:10·AI 生成

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达SOTA

剑桥大学等团队提出了面向对地观测的像素级基础模型 TESSERA。该模型的核心创新在于不再过滤含云遥感数据，而是基于巴洛双子自监督学习框架，让模型通过约束同一位置不同时间观测的特征一致性，自主学习地表稳定的时空变化规律，从而获得对云层、不规则采样等干扰具有鲁棒性的特征表示。实验证明TESSERA在分类、分割和回归任务中，尤其在低标注比例的少数样本场景下，精度达到SOTA水平。适合关注遥感、AI模型在物理世界应用、少样本学习的技术从业者或研究者阅读。

核心观点

▍TESSERA 的核心贡献在于提出了一种不依赖数据洗白和合成的遥感基础模型范式，让模型直接从含云、残缺、不规则的真实时序观测中，基于自监督对比学习（巴洛双子算法）学习具有时序采样不变性的特征表示。

01传统遥感影像合成技术虽能去云和降噪，但会弱化甚至抹除物候动态、短时突变等精细时序特征，导致关键信息流失。
02现有遥感基础模型多依赖经过深度过滤的完美数据（如无云合成影像或时间序列均值），导致模型在面对稀疏、残云的真实时序数据时泛化能力不足。
03TESSERA 采用 d-pixel 数据组织方式，以单个空间位置为核心，将同一像素不同时间的多源观测（哨兵一号雷达+哨兵二号光学）按时间序列组织，并用二值掩码标记缺失/云遮挡。
04模型架构使用双分支编码器分别处理光学和雷达数据，融合后形成128维多模态表征，并通过量化感知训练将特征压缩为8位整型，存储规模缩减约75%。
05预训练数据集覆盖全球3000余网格瓦片，时间范围2017-2024年，总计约8亿个d-pixel样本，保留了数据缺失、不规则采样和云层遮挡等原始特性。
06在仅使用1%标注数据的极低样本场景下，分类精度较最优基线提升约8个百分点，显示出对地表长期变化规律（如植被生长周期）的有效建模。
07在多个公开数据集的分类、分割（奥地利作物语义分割）和回归（森林林冠高度反演）任务中，TESSERA 均取得领先或持平SOTA的结果。

反方 / 局限

— 文章明确指出TESSERA的尝试“并不意味着数据清洗不再重要”，本质上承认该范式与传统数据清洗/合成路线各有适用场景，并不具有完全的替代性。
— 虽然TESSERA在低标注场景下表现出色，但其双分支Transformer+门控循环单元的架构计算开销，以及全球10米分辨率数据集的存储和部署成本，文章并未详细分析或与纯视觉Transformer进行量化的训练/推理效率对比。

TESSERAd-pixel巴洛双子（Barlow Twins）哨兵一号哨兵二号剑桥大学阿尔托大学布里斯托大学

10 分钟 · 4 卡片 · 10 资料

读原文 →

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达SOTA

前置背景

技术原理

平行视角

延伸追问