1 引 言

随着遥感技术的迅速发展,遥感影像数据呈现出高空间分辨率、高光谱分辨率、高时间分辨率、大数据的特点(Gong和Zhong,2016Tong,2016)。现有的遥感影像信息处理与分析技术滞后于数据的获取能力,知识转化和数据利用率低(Li等,2014)。作为遥感信息处理的前沿研究领域,遥感影像解译在遥感影像智能化分析中起着至关重要的作用,广泛应用于自然资源调查(Tong等,2016)、自然灾害监测(Fan等,2016)、城市规划(Tong,2016)、军事侦察(Luo等,2020)等领域,具有重要的民用和军事应用价值。

高分辨率遥感影像解译是指根据任务需求,结合解译标志(如形状、大小、颜色、纹理等)和相关知识与经验,通过对高分辨率遥感影像中的地物信息进行建模、分析、推理与判断,最终获取各类地物信息的过程(Lillesand等,2015Mei,2001Yang和Liu,2004)。高分辨率遥感影像解译的典型任务包括遥感图像目标检测(Cheng和Han,2016Cheng等,2016d2019Han等,2015Li等,2018a2020aXia等,2018)、场景分类(Cheng等,2017a2018bXia等,2017)、高光谱图像分类(Cheng等,2018aLi等,2019Zhou等,2019a)、语义分割(Yao等,2016b)、变化检测(Mou等,2019)、图像检索(Wang等,2016Xu等,2020)、图像—文字转换(Lu等,2018)、SAR图像目标识别(Wang等,2017Zhao等,2016)、红外图像目标识别(Cheng等,2013b)等。图1为高分辨率遥感影像解译任务示例。

10.11834/jrs.20210164.F026高分辨率遥感影像解译任务示例Examples of high resolution remote sensing image interpretation

早期的高分辨率遥感影像解译是由具备专业知识(如地理、气象、农林等)的解译人员结合遥感影像特点和实际状况,通过经验进行人工解译(Lillesand等,2015Mei,2001),但这种方式耗时、费力且精度不高。因此,如何自动、高效地实现高分辨率遥感影像解译是亟待解决的重要问题。近年来,随着人工智能技术的飞速发展,采用机器学习方法实现高分辨率遥感影像自动、快速、精确的解译已经成为主流的研究方向。

机器学习是对利用经验提高系统自身性能的计算机算法的研究(Zhou,2016)。如图2所示,机器学习的一般流程是通过学习算法,让计算机从数据中训练模型,并预测未知数据。大体来说,高分辨率遥感影像解译的机器学习范式主要包括全监督学习、半监督学习、弱监督学习、无监督学习和深度学习。图3为5种机器学习范式的示意图。

10.11834/jrs.20210164.F010机器学习的一般流程General flowchart of machine learning5种机器学习范式Five kinds of machine learning paradigms10.11834/jrs.20210164.F011全监督学习Supervised learning10.11834/jrs.20210164.F012半监督学习Semi-supervised learning10.11834/jrs.20210164.F013弱监督学习Weakly supervised learning10.11834/jrs.20210164.F014无监督学习Unsupervised learning10.11834/jrs.20210164.F015深度学习Deep learning10.11834/jrs.20210164.F016

本文将对高分辨率遥感影像解译中的5种机器学习范式进行系统综述(包括全监督学习、半监督学习、弱监督学习、无监督学习和深度学习)。归纳并分析不同机器学习范式的优缺点,同时介绍它们在遥感影像解译中的典型应用。最后展望机器学习在高分辨率遥感影像解译中的发展方向。

2 全监督学习

全监督学习是高分辨率遥感影像解译最常用的机器学习方法。全监督学习是指在全部训练数据都给定准确标注信息的情况下,进行特征表示和分类器训练的机器学习方法。图3(a)为全监督学习的示意图。在全监督学习中,良好的特征表示对训练高性能的分类器非常重要,特征表示经历了从手工设计特征到深度学习特征的发展过程。分类器的选择与设计也是非常关键的一个环节。常见的分类器包括支持向量机、K-最近邻、决策树、随机森林、概率图模型等。

2.1 支持向量机

支持向量机SVM(Support Vector Machine)(Cortes和Vapnik,1995)的基本思想是在样本空间中找到具有最大间隔的决策超平面。图4为线性SVM的示意图。对于线性不可分的问题,一种有效的解决方法是采用“软间隔”的思想,容许出现一些错分的样本。另外,也可以在SVM中引入核函数来解决线性不可分问题,通过将样本原始特征映射到一个更高维度的特征空间,使得样本在该高维特征空间内线性可分。

10.11834/jrs.20210164.F017线性支持向量机Linear support vector machine

在深度学习之前,SVM是最流行和有效的分类器之一,在高分辨率遥感影像解译中被广泛应用。例如,在高分辨率遥感图像目标检测中,通常将目标检测问题转化为分类问题来处理(Cheng等,2013b2014)。另外,SVM也应用于高分辨率遥感图像场景分类(Cheng等,2015a2015b)和高光谱图像分类(Fauvel等,2008)。有关SVM在高分辨率遥感影像解译任务中更详细的介绍参见文献(Cheng和Han,2016Mountrakis等,2011)。

2.2 K-最近邻

K-最近邻(Cover和Hart,1967)的基本思想是采用多数投票策略,将与未知样本最近邻的K个样本中出现频次最多的类别作为该未知样本的类别。近年来,K-最近邻作为一种分类方法,已经被广泛应用于高分辨率遥感图像目标检测(Zhu等,2005)、高分辨率遥感图像场景分类(Cheng等,2013a)和高光谱图像分类(Ma等,2010)。

2.3 决策树和随机森林

决策树是通过将数据划分为具有相似值的子集而构建的一个树型结构分类器(Zhou,2016)。决策树包含一个根节点、若干非叶子节点和若干叶子节点。根节点是整个样本集,非叶子节点是特征属性,叶子节点对应输出结果。随机森林是由多个互不关联的决策树以随机方式构建的分类器,其分类结果是通过多个决策树的结果投票决定的。在高分辨率遥感影像解译中,可以通过随机森林编码遥感图像目标的不同旋转方向实现高分辨率遥感图像目标检测(Lei等,2012),也可以通过随机森林有效地利用空间上下文信息实现遥感图像语义分割(Lei等,2011)。

2.4 概率图模型

概率图模型是用图来表示变量相关关系的概率模型。该模型可以根据已有信息对感兴趣的未知信息进行估计和推测(Zhou,2016)。概率图模型的代表性方法包括条件随机场、马尔可夫随机场等。概率图模型在高分辨率遥感影像解译中得到广泛的应用。例如,通过引入条件随机场实现空间上下文信息建模,用于高分辨率遥感图像目标检测(Yao等,2015Zhong和Wang,2007);利用概率图模型获取场景图片之间的隐性关系,用于实现遥感图像场景分类(Wang等,2018);通过概率图模型建立空间邻域像素之间的关系实现遥感图像语义分割(Zheng等,2017)和高光谱图像分类(Li等,2012Zhang等,2011)等。

除了以上4种典型的分类器,朴素贝叶斯(Tao和Nevatia,2001)、高斯混合模型(Ar?和Aksoy,2014)、逻辑回归(Zhang和Couloigner,2006)、线性判别分析(Bandos等,2009Eikvil等,2009)等方法也被用于高分辨率遥感影像解译。

3 半监督学习

通常情况下,全监督学习需要大量的标注数据,而标注数据数量不足会带来模型训练不充分和性能退化等问题。在高分辨率遥感影像解译中,数据标注需要消耗大量的人力物力,样本获取成本较大,而大量未标注数据却很容易获得。如何利用少量的有标注数据和大量的未标注数据来有效地训练模型,提升模型的预测性能,已经成为高分辨率遥感影像解译的一个研究热点问题。

半监督学习是解决这一问题的一种常见方法。半监督学习是在有标注数据数据量不足的情况下,通过引入大量未标注数据使得模型性能达到与全监督学习接近甚至更好的机器学习方法(Zhou,20132016)。图3(b)为半监督学习的示意图。半监督学习主要包括纯半监督学习、直推学习和主动学习等3种类型。

3.1 纯半监督学习

纯半监督学习基于“开放世界”假设,假定训练数据中的未标注数据并非待预测的数据,在没有人工干预的情况下,由计算机自动地利用大量未标注数据辅助少量有标注数据进行学习,用于预测未参与训练的测试数据(Zhou,20132016)。图5中a是纯半监督学习框架。

10.11834/jrs.20210164.F018纯半监督学习、直推学习和主动学习框架(Zhou, 2018)Frameworks of pure semi-supervised learning, transductive learning and active learning (Zhou, 2018)
3.2 直推学习

不同于纯半监督学习,直推学习基于“封闭世界”假设,假定训练数据中的未标注数据就是待预测数据,目的是使得学习到的模型在未标注数据中获得最优泛化性能(Zhou,20132016)。图5中b是直推学习框架。

3.3 主动学习

主动学习是一种需要专家参与的半监督学习。主动学习首先通过某种查询策略在未标注数据中自动抽取一些样本并由专家进行标注,获得其真实标注信息,然后将这些新的标注样本加入训练集进行模型训练,以提升模型泛化性能(Zhou,20132016)。图5中c是主动学习框架。

在遥感影像解译中,半监督学习常用于高光谱图像分类。由于高光谱图像数据维度高且标注样本有限,两者之间的不平衡性使得基于全监督学习的高光谱图像分类比较困难。半监督学习可以利用有限的有标注数据从大量未标注数据中获取新的标注数据。近年来,涌现出大量基于半监督学习的高光谱图像分类方法(Deng等,2019Dópido等,2013Persello和Bruzzone,2014Wang等,2015)。此外,在标注数据有限的情况下,使用半监督学习方法实现高分辨率遥感图像目标检测(Bai等,2014);使用半监督学习方法学习高层特征并用于场景分类(Yang等,2015);使用半监督聚类方法实现SAR图像语义分割(Yao等,2016a)。

4 弱监督学习

在全监督学习和半监督学习中,标注数据都具有强监督信息。而在高分辨率遥感影像解译任务中,人工标注训练数据需要专业知识,数据标注耗时、代价高,且噪声、人为失误等因素会造成标注不准确。为了在弱标注条件下训练性能较好的预测模型,弱监督机器学习应运而生。

弱监督学习是指在监督信息较弱的情况下训练预测模型的机器学习方法。图3(c)为弱监督学习的示意图。弱监督信息是指粗粒度的标注信息。例如,在高分辨率遥感图像目标检测任务中,图像级标注信息(是否含有某类地物目标)相对于目标级标注信息(目标边界框)是弱标注信息;而在高分辨率遥感图像语义分割中,图像级或目标级标注信息相对于像素级标注信息(目标分割轮廓)均是弱标注信息(Zhou等,2019b)。图6是不同级别标注信息示例图。弱监督学习可以转化为多示例学习来完成高分辨率遥感影像解译任务。

10.11834/jrs.20210164.F019不同级别标注信息示例Examples of annotation information of different levels4.1 多示例学习

多示例学习是以示例包为单元的机器学习方法。多示例学习的训练集由示例包组成,每个示例包有若干未标注的样本。如果示例包中至少有一个样本是正示例,则该示例包是正例包;如果示例包中所有样本都是负样本,则该示例包是负例包。多示例学习是通过训练具有包级标注信息的多示例包,来实现对未知示例包的预测。图7是多示例学习框架。

10.11834/jrs.20210164.F020多示例学习框架Framework of multiple instance learning

在高分辨率遥感影像解译中,目前已经有一些研究人员提出了基于弱监督学习的遥感图像目标检测方法(Han等,2015Zhang等,2015Zhou等,2016),这些方法将弱监督目标检测问题转化为基于多示例学习的图像分类问题。但这些方法只能用于飞机、车辆、机场等单类别目标检测,而无法处理多类别遥感图像目标检测任务。针对这个问题,一种解决方法是采用渐进式示例精炼的方法实现弱监督遥感图像目标检测(Feng等,2020),主要包括双重上下文示例精炼和候选框渐进自精炼两大模块;另一种解决方法是借鉴由易到难的学习模式,采用动态课程学习方法实现弱监督遥感图像目标检测(Yao等,2020)。此外,一些弱监督学习方法采用迁移学习来处理弱监督遥感图像目标检测问题(Li等,2018bZhang等,2016a)。其基本思路是将大规模遥感图像场景分类数据(如NWPU-RESISC45 (Cheng等,2017a))中的图像或训练的模型作为辅助知识,迁移到遥感图像目标检测数据(如NWPU VHR-10(Cheng等,2014))中实现遥感图像目标检测。另外,弱监督学习方法也应用于遥感图像场景分类(Li等,2020b)和语义分割(Yao等,2016b)。

5 无监督学习

无监督学习是指在样本没有任何标注信息的情况下训练模型的一种机器学习方法。图3(d)为无监督学习的示意图。在高分辨率遥感影像解译中,无监督学习主要作为数据降维、特征选择和特征学习的手段,用于提取遥感影像的特征,来辅助完成高分辨率遥感影像解译任务。常用的无监督学习方法包括聚类、主成分分析、稀疏表达等。

5.1 聚类

聚类是一种应用广泛的无监督学习方法,其基本思想是根据特征将数据划分为若干不相交的子集。聚类既能单独使用,用于寻找并揭示数据的内在性质和规律,也可作为其他数据分析方法的基础(Zhou,2016)。在高分辨率遥感影像解译中,聚类方法可以用于完成高光谱图像聚类(Li等,2013Wang等,2019b)和高光谱图像分类(Jia和Richards,2002)任务。

5.2 主成分分析

主成分分析PCA(Principal Component Analysis)是一种无监督数据降维方法,其主要思想是提取数据的主要特征向量(即方差最大的特征向量)来构成线性变换矩阵实现数据降维,使得在数据降维的同时尽可能多的保留数据的主要信息。PCA作为一种有效的特征降维技术,已经被广泛应用于高分辨率遥感影像解译任务。如在高光谱图像分类中,PCA通常用于降低高光谱特征维度(Kang等,2017)。

5.3 稀疏表达

稀疏表达研究始于Olshausen(Olshausen和Field,1996)等于1996年提出的神经元稀疏编码学说,并随着压缩感知理论快速发展。稀疏表达的目的是利用过完备字典中原子的线性组合来表示输入信息,使得在非零组合系数尽可能少的情况下,重构信息与原始输入信息的误差尽可能小。稀疏表达作为一种特征表示方法,在高分辨率遥感图像目标检测(Han等,2014)和高光谱图像分类(Yu等,2017a2020Zhang等,2016b)任务中都有一定的应用。

除了以上几种无监督学习方法之外,也有一些基于深度学习的无监督学习方法,如自编码机、受限玻尔兹曼机和生成对抗网络等,这些无监督学习方法将在深度学习部分详细介绍。

6 深度学习

随着大规模标注数据、高性能计算能力和先进的机器学习算法的出现,深度学习在图像分析与理解等众多领域中取得了里程碑式的进展,成为目前非常流行的一种机器学习方法。深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更加抽象的含有语义信息的高层特征,从而最终提升分类或预测的准确性。图3(e)为深度学习的示意图。所以“深度模型”是手段,“特征学习”是目的。

典型的深度学习方法包括堆栈自编码机、深度信念网络、卷积神经网络、循环神经网络和生成对抗网络。下面简要介绍几种典型的深度学习方法及其在高分辨率遥感影像解译中的应用情况。

6.1 堆栈自编码机

堆栈自编码机SAE(Stacked Autoencoder)是由多个自编码机堆叠构成的深度学习模型。自编码机(Vincent等,2010)是一种重要的无监督特征学习方法。如图8(a)所示,它是一种三层神经网络模型,包含输入层、隐藏层和重构层,可以分为编码器和解码器两部分。自编码机通过最小化编码器输入数据与解码器重构数据的重构误差来学习隐藏层的特征。SAE通常采用“预训练+微调”的方式训练。图8(b)是堆栈自编码机的网络结构。

自编码机和堆栈自编码机Autoencoder and stacked autoencoder10.11834/jrs.20210164.F021自编码机Autoencoder10.11834/jrs.20210164.F022堆栈自编码机Stacked autoencoder

在高分辨率遥感影像解译中,堆栈自编码机通常作为特征学习或特征增强方法,用以提取更加有效的特征,提升高分辨率遥感影像解译能力,已经被广泛用于高分辨率遥感图像场景分类(Cheng等,2015a2015b)、高光谱图像分类(Chen等,2014Zhou等,2019a)和高分辨率遥感图像语义分割(Yao等,2016b)。

6.2 深度信念网络

深度信念网络DBN(Deep Belief Network)是由Hinton和Salakhutdinov(2006)首次提出。如图9所示,DBN是由多个受限玻尔兹曼机RBM(Restricted Boltzmann Machine)堆叠构成的,用于提取深度层级特征,比单个RBM具有更强的特征表达能力。RBM是一种状态随机生成网络,包含可视层和隐藏层两层神经元,且神经元只有激活和未激活两种状态,可以通过输入数据学习概率分布。DBN同样采用“预训练+微调”的方式训练。

受限玻尔兹曼机和深度信念网络Restricted Boltzmann Machine and deep belief network10.11834/jrs.20210164.F023受限玻尔兹曼机Restricted Boltzmann Machine10.11834/jrs.20210164.F024深度信念网络Deep belief network

类似于堆栈自编码机,在高分辨率遥感影像解译中,深度信念网络也常作为特征学习或特征增强方法,提高对遥感目标的特征表达能力,被应用于高分辨率遥感图像目标检测(Han等,2015)和高光谱图像分类(Chen等,2015Zhong等,2017)。

6.3 卷积神经网络

卷积神经网络CNN(Convolutional Neural Network)(Krizhevsky等,2012)是受生物学感受野机制启发而提出的一种前馈神经网络。CNN采用卷积和权值共享训练策略,极大地降低了模型复杂度,节省训练开支。此外,CNN模型的局部连接和空间下采样特点,使得CNN具有一定的平移、尺度和扭曲不变性。图10为CNN的模型结构。CNN模型通常由卷积层、池化层和全连接层组合而成。

10.11834/jrs.20210164.F025卷积神经网络模型结构Framework of convolutional neural network

(1)卷积层:卷积层是CNN的核心,目的是对输入数据进行特征提取。在卷积层中,使用一组滤波器(即卷积核),与前一层中位置邻接区域内的元素进行卷积操作,并使用非线性激活函数(如线性整流函数)进行映射,获取卷积特征图。

(2)池化层:在卷积层进行特征提取后,采用空间池化方法对卷积特征图进行下采样,用于特征选择和空间降维。池化层可以有效地降低模型复杂度,节省计算成本。常用的池化方法包括极大值池化和均值池化。

(3)全连接层:全连接层是将当前网络层中的每个节点与上一层的所有节点相连,可以整合卷积层或者池化层中提取到的特征。

常用的卷积神经网络结构有AlexNet(Krizhevsky等,2012)、VGGNet(Simonyan和Zisserman,2014)、GoogLeNet(Szegedy等,2015)、ResNet(He等,2016)等。在高分辨率遥感影像解译中,往往根据任务特点对常用卷积神经网络模型进行改进,实现不同的高分辨率遥感影像解译任务。CNN在高分遥感图像目标检测任务中应用最为广泛。基于CNN的遥感图像目标检测算法,大都是在计算机视觉领域的两阶段目标检测算法,如Faster RCNN(Ren等,2017)或单阶段目标检测算法(如YOLO(Redmon等,2016)的基础上改进而成的。高分辨率遥感图像中的目标存在方向任意性(Cheng等,2016c2016d2019Li等,2018a)、尺度多样性(Cheng等,2020)、几何形变(Xu等,2017)、密集排列(Cheng等,2018c)等特点。基于CNN的高分辨率遥感图像目标检测,就是结合遥感图像目标的特点,对深度网络模型进行改进,使其能够有效地实现目标检测。

在高分辨率遥感图像场景分类中,最简单的方法是采用“预训练+微调”的方式训练CNN模型,提取特征并使用SVM分类(Cheng等,2016a2017a)。随着高分辨率遥感图像数据规模、类别多样性和场景复杂度的不断提高,这种简单的基于CNN的分类方法已经不能满足高分辨率遥感图像场景分类的需求。针对这些难点问题,通过对CNN特征的再加工(Cheng等,2017b)、目标函数的改进(Cheng等,2018b2019)和网络结构的改变(Lu等,2019)来实现高分辨率遥感图像场景分类。

此外,CNN模型在高光谱图像分类(Chen等,2016Cheng等,2018aGao等,2020Xu等,2018)和高分辨率遥感图像语义分割(Liu等,2020Peng等,2019)中也大量应用。

6.4 循环神经网络

循环神经网络RNN(Recurrent Neural Network)是一种用于处理序列数据(如自然语言、语音等)的神经网络。RNN的隐藏单元之间有循环连接,每个隐藏单元的输出由当前的输入状态和上一层的输出状态决定。

在高光谱图像分类中,高光谱图像邻域像素之间存在高度相关性,具有序列数据结构特点,适合使用RNN处理(Mou等,2017)。随着RNN的快速发展,遥感图像—文字转换(Lu等,2018)受到越来越多的关注。另外,RNN在其他高分辨率遥感影像解译中也得到了广泛应用,例如,将RNN与注意力机制结合提取关键区域,实现高分辨率遥感图像场景分类(Wang等,2019a);使用RNN获取像素的语义上下文信息,用于高分辨率遥感图像语义分割(You等,2020)和SAR图像分类(Geng等,2018);使用RNN挖掘变化信息,用于高分辨率遥感图像变化检测(Chen等,2020)。

6.5 生成对抗网络

生成对抗网络GAN(Generative Adversarial Network)是一种自监督深度学习方法。如图11所示,GAN模型包含两个模块:生成器和判别器。生成器目标是生成尽可能真实的样本以骗过判别器,而判别器的目标是不断提高判别样本真伪的能力。这两个模块一般都以深度学习模型为基础,且激活函数必须可微。GAN学习过程是生成器和判别器相互博弈的过程。

10.11834/jrs.20210164.F026生成对抗网络结构Framework of generative adversarial network

在高分辨率遥感影像解译任务中,GAN通常作为一种自监督图像生成方法,用于解决数据不足的问题,已经被应用于高分辨率遥感图像场景分类(Ma等,2019)和高光谱图像分类(Zhu等,2018);另外,GAN也可以作为一种无监督迁移学习方法用于高分辨率遥感图像语义分割(Liu等,2019)。

在高分辨率遥感影像解译中,除了以上几种深度学习模型,也出现了一些其他的神经网络学习方法,如宽度学习(Kong等,2019)、深度森林(Boualleg等,2019)、极限学习机(Tang等,2015)等。

7 不同机器学习范式的优缺点及其典型应用7.1 全监督学习

全监督学习属于强监督学习方法,只利用有标注数据训练模型。全监督学习中常见的分类器包括支持向量机、K-最近邻、决策树、随机森林、概率图模型等。

优点:全监督学习可以学习一个从输入变量到输出变量的映射函数,且输出变量可以是离散变量(即分类),也可以是连续变量(即回归)。全监督学习方法理论相对完备,算法简单,应用范围广,在数据标注质量高且数据量充足时,效果较好。

缺点:全监督学习需要强监督信息,算法的性能多依赖于训练数据的标注质量,而高质量的强监督标注数据难以获取或代价高昂,且标注数据需求量大;全监督学习很难应用于缺乏训练数据的任务。

典型应用:SVM是常用的全监督分类方法,在高分辨率遥感图像场景分类(Cheng等,2015a2015b)、高光谱图像分类(Fauvel等,2008Yu等,2017b)中大量应用,而高分辨率遥感图像目标检测通常也转化为分类问题处理(Cheng等,2013b2014)。SVM理论相对完备,可以解决非线性、高维数据分类的问题,无需依赖整个数据,泛化能力较高,也可以用于少量样本学习。缺点是当训练样本很多时,效率低下,处理多类分类问题时需要利用二分类SVM构造多类分类器。

K-最近邻是最简单的一种全监督学习方法,其学习过程主要是采用多数投票的策略,对未知样本的类别进行判断,无需估计参数,简单直接,缺点是算法性能依赖于所选实例,当训练数据较多时,计算量较大。在遥感影像解译中,K-最近邻作为常用的分类方法,应用于高分辨率遥感图像目标检测(Zhu等,2005)、场景分类(Cheng等,2013a)和高光谱图像分类(Ma等,2010)。

决策树计算简单,容易理解,可解释性强,对中间属性值缺失具有鲁棒性,也可以处理不相关特征,但模型复杂,容易过拟合,且忽略了数据之间的相关性。随机森林是由多个决策树以随机方式构建的,采用多数投票预测结果,相比于决策树,能够缓解过拟合问题。在遥感影像解译中,可以使用决策树或随机森林编码遥感地物目标的属性,如目标的方向(Lei等,2012)、空间上下文信息(Lei等,2011),并分别用于遥感图像目标检测和语义分割。

概率图模型可以根据变量之间的相关关系,根据已有信息对未知信息进行估计与推测。在高分辨率遥感影像解译中主要应用于目标检测、场景分类、语义分割、高光谱图像分类。例如,在目标检测中可以使用概率图模型预测上下文信息(Yao等,2015Zhong和Wang,2007);在场景分类中可以获取场景图片之间的隐性关系(Wang等,2018);在语义分割(Zheng等,2017)和高光谱图像分类(Li等,2012Zhang等,2011)中,主要使用概率图模型建立空间邻域像素的关系。

7.2 半监督学习

半监督学习介于全监督学习和无监督学习之间,属于标注信息不完备的学习方法。其代表性方法包括纯半监督学习、直推学习、主动学习。

优点:在标注数据难以获取或特定类别样本量少的情况下,半监督学习能够有效地挖掘大量无标注数据隐藏的信息,辅助少量有标注数据训练模型,改善模型学习性能;适于处理具有“有标注数据少,未标注数据多”现象的应用任务;能共同利用有标注数据和无标注数据学习模式。

缺点:半监督学习的数据分布非常重要,主要依据数据分布的连续性与一致性;当不满足平滑假设、聚类假设、流行假设或模型假设不符合实际情况时,利用无标注数据可能会使模型性能下降;在模型训练过程中,初始训练的模型对未标注数据的标注错误容易累积;部分方法缺少严格的理论证明;复杂数据下构建的半监督模型参数较多,结果不稳定且缺乏参数选取的指导经验;存在数据不平衡性和噪声问题。

典型应用:半监督学习可以利用大量无标注数据辅助少量有标注数据训练模型,在高分辨率遥感影像解译中,典型的应用是高光谱图像分类(Deng等,2019Dópido等,2013Persello和Bruzzone,2014Wang等,2015)。此外,半监督学习也可以应用于目标检测(Bai等,2014)、场景分类(Yang等,2015)和语义分割(Yao等,2016a)中。

7.3 弱监督学习

弱监督学习也介于全监督学习和无监督学习之间,属于标注信息不完备的学习方法。不同于半监督学习方法,弱监督学习使用粗粒度标注数据学习模型,学习过程中不包含强监督标注数据。

优点:标注信息相对强监督学习容易获得,不依赖于强监督标注信息,只需要获得相对粗粒度的标注信息,标注成本较低。

缺点:弱监督学习的标注信息往往不完整和不确切,很容易造成模型训练不稳定,需要精心地进行初始化操作,性能与全监督学习相比还存在较大差距。在多类分类问题和多标签学习中,每个样本都可能会同时赋予多个标签,分类任务情况会比较复杂。

典型应用:在高分辨率遥感影像解译中,弱监督学习通常用于高分辨率遥感图像目标检测。早期的方法主要针对单类别目标,借鉴多示例学习实现目标检测。针对多类目标检测,目前的方法是采用渐进式的、由易到难的学习模式,通过迭代的方法,逐步进行实例精炼和检测器学习(Feng等,2020Yao等,2020)。还有一些方法采用迁移学习的方法,将大规模多类数据库中训练的模型迁移到目标检测数据库中,用于目标检测器的初始化,实现弱监督目标检测(Li等,2018bZhang等,2016a)。

7.4 无监督学习

无监督学习在学习过程中不需要特定任务的监督信息,目标是通过对无标注数据学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础(Zhou,2016)。其代表性方法包括聚类、主成分分析、稀疏表达等。

优点:无监督学习的数据集不需要先验信息,可以用于探寻数据内在的分布结构及性质,减少无关和冗余信息,自主地学习数据的抽象形式,获得数据的隐特征,作为遥感影像解译任务的前驱过程。

缺点:主要用于聚类分析或作为字典学习和特征学习的方法,用于提取特征;如果直接用于遥感影像解译,准确性难以保证,预测结果存在不确定性;无监督学习方法属于数据驱动型方法,利用数据的结构特征进行字典学习或特征学习,所学习到的字典或特征与具体任务相关性不高。

典型应用:在高分辨率遥感影像解译中,利用无标注数据的特征分布,使用聚类方法将相似样本聚为一类,可以实现高光谱图像聚类(Li等,2013Wang等,2019b)和高光谱图像分类(Jia和Richards,2002),这种方法是像素级分类方法,效率不高。另外也有一些基于对象的遥感影像分类方法,主要是面向对象的图像分析方法(Blaschke,2010),通常先做不同尺度的超像素分割,然后再对每个对象进行分类。

无监督学习作为字典学习和特征学习的方法,可以利用数据(不使用标注信息)学习出字典或特征表达,然后再利用有监督的学习方法训练模型并预测未知数据。如PCA作为一种无监督特征降维方法,主要用于降低高光谱图像的特征维度,用于高光谱图像聚类或分类(Kang等,2017)。稀疏表达和自编码机通过无监督方式学习字典和网络,实现遥感影像特征提取。

7.5 深度学习

深度学习是近年来流行的一种新的更高级的学习范式,通过多层表示对数据之间的复杂关系进行建模的算法,可与全监督学习、半监督学习、弱监督学习和无监督学习方法结合使用。代表性方法包括堆栈自编码机、深度信念网络、卷积神经网络、循环神经网络、生成对抗网络等。

优点:不需要人工设计特征,具有很强的特征学习和表达能力,可以直接从数据中学习更加抽象且含有语义信息的高层特征,模型预测性能高,具有较好的迁移学习能力。

缺点:缺乏严格的理论支撑,网络模型的可解释性不强;网络模型大多依赖经验设计;需要大量有标注的数据;网络模型复杂度高,容易出现局部最优解或过拟合问题;训练耗时,计算量大;存储和计算资源要求高,通常需要GPU平台;模型的超参数选择多依赖于经验和技巧。

典型应用:在高分辨率遥感影像解译中,CNN作为最常用的一种深度学习方法,已经被广泛用于高分辨率遥感图像目标检测、场景分类、高光谱图像分类等任务。在高分辨率遥感图像目标检测中,通常在计算机视觉的目标检测框架(如Faster R-CNN(Ren等,2017),YOLO(Redmon等,2016)等)基础上,结合遥感图像中目标的特点,对深度网络进行改进,来有效地实现目标检测。例如,针对遥感图像目标方向的不确定性,可以提取旋转不变特征实现水平框目标检测(Cheng等,2016b),也可以设计能够准确识别目标角度的方法来实现有向边框目标检测(Ding等,2019);针对目标的尺度差异性,采用多尺度方法对网络结构进行改进,实现多尺度目标检测(Cheng等,2020);针对遥感目标的密集排列问题,采用自适应方法,实现密集目标检测(Cheng等,2018c)。在高分辨率遥感图像场景分类中,在原始“预训练+微调”的分类方法基础上,结合遥感图像特点,通过对目标函数(Cheng等,2018b2019)和网络结构(Lu等,2019)进行改进,实现遥感图像场景分类。在高光谱图像分类中,CNN可以作为特征提取的一种方法用于高光谱图像分类(Cheng等,2018a),也可以将CNN结构改进为1D CNN(Hu等,2015)和3D CNN(Chen等,2016)提取高光谱图像特征以实现高光谱图像分类。

其他深度学习模型,SAE和DBN通常作为特征学习和特征增强的方法,用于高分辨率遥感图像目标检测(Han等,2015)、场景分类(Cheng等,2015a2015b)和高光谱图像分类(Chen等,20142015Zhong等,2017Zhou等,2019a)。RNN可用于建立遥感影像中领域像素的相关性,实现高光谱图像分类(Mou等,2017)和高分辨率遥感图像语义分割(You等,2020)。GAN作为图像生成方法用于数据扩增,实现高分辨率遥感图像场景分类(Ma等,2019)和高光谱图像分类(Zhu等,2018)。

8 结 语

本文对高分辨率遥感影像解译中的机器学习范式进行了系统综述,主要介绍了全监督学习、半监督学习、弱监督学习、无监督学习和深度学习五种代表性的机器学习范式,分析并总结了不同机器学习范式的优缺点及其在高分辨率遥感影像解译中的典型应用。

随着遥感技术的不断发展,遥感影像数据呈现出海量化、复杂化的特点,高分辨率遥感影像解译的机器学习方法将趋向于使用少量标注数据学习,甚至直接从无标注数据中自动学习,这将给高分辨率遥感影像解译带来极大便利,推动遥感技术进一步发展。未来的研究方向有如下几种:

(1)小样本学习算法研究。近年来,深度学习在遥感影像解译中获得了广泛的使用。但是基于深度学习的方法通常依赖于大量高质量的人工标注数据,在高分辨率遥感影像解译任务(如场景分类、目标检测、语义分割等)中,由于数据标注的困难性(如需要大量领域专家进行数据标注)或数据本身的稀缺性,大量有标注数据难以获取;另外,随着遥感数据的不断获取,新的地物目标也会不断涌现,这些问题限制了高分辨率遥感影像解译的效果。如何在少量有标注数据条件下,实现高分辨率遥感影像解译,小样本学习提供了一种可行的解决方案。小样本学习是指在只给定少量训练数据的条件下,训练可以有效地识别目标的机器学习方法。小样本学习不仅可以解决高分辨率遥感影像解译中标注数据不足的问题,也可以对高分辨率遥感影像中的新类别或新概念进行挖掘与识别,具有重要的研究意义。

(2)无监督深度学习算法研究。深度学习要获得好的性能,通常依赖于大量有标注的训练数据。在高分辨率遥感影像解译中,数据标注耗时费力。为了避免标注大规模遥感数据所耗费的大量成本,可以采用无监督深度学习方法,直接从未标注数据中自主地学习、发现、寻找数据的模式。作为无监督深度学习的一类方法,自监督学习近年来获得很大的关注度。自监督学习可以通过无标注数据本身的结构或特性,自动生成数据标签,然后采用类似监督学习的方法训练模型。这为大规模的高分辨率遥感影像解译提供了一种研究思路,具有重要的研究价值。

(3)强化学习算法研究。强化学习是智能体(Agent)以“试错”的方式,通过最大化智能体与环境交互过程中的累积奖励,从当前环境状态中获得行动决策的最优策略的方法。在高分辨率遥感影像中,所采集到的数据存在不完整性和不确定性,这给遥感影像解译带来了困难和挑战。为了有效地利用这些数据进行推理与决策,考虑采用强化学习的方法,在只输入原始图像,不进行具体指导的情况下,通过交互学习的方式,实现信息不完备和不确定情况下的高分辨率遥感影像解译。