1 引 言

随着深度学习的快速发展,基于图像的配准、语义分割、实例分割等性能得以大幅提升。利用海量训练集(如 ImageNet、LFW等),卷积神经网络已经获得接近甚至超越人类的识别准确度。点云是现实世界三维数字化的最直接表达。尽管点云智能处理方面已取得了大量的进展(杨必胜和董震,20192020)。然而,由于大规模点云训练数据集的缺乏,点云深度学习解决配准、语义和实例分割等方面面临巨大挑战。虽然目前已有一些初具规模的点云数据集,如ModelNet(Wu 等,2015)、ScanNet (Dai 等,2017)、 KITTI (Geiger等,2013)等,使得深度学习模型从三维点云中学习有效特征成为可能。然而,当前的点云配准基准数据主要集中在小尺度的模型和室内场景,缺少大规模、多样性的室外场景;其次,当前的点云语义和实例分割数据集在规模、语义类别、实例类型等方面都存在严重的局限性。因此,武汉大学联合国内外多家高校和科研机构公布了大规模、多类型的点云配准数据集WHU-TLS和城市级车载点云语义和实例分割数据集WHU-MLS,旨在推动深度学习在点云智能化处理中的应用。本文对上述两种点云基准数据集分别予以阐述。

2 WHU-TLS基准数据集2.1 概述

地面激光扫描TLS(Terrestrial Laser Scanner)系统对地物表面的三维几何信息进行高速度、高密度、高精度地采集,获取三维点云,具有机动灵活、便于携带等优点,被广泛应用于城市发展跟踪、森林结构评估、滑坡监测、文化遗产保护、工业设施测量、犯罪现场调查等领域(Yang等,2016Ge等,2017Dong等,2018)。将地面点云从各自的站心坐标系转换到场景统一坐标系的点云配准是上述应用的基础和前提。

TLS点云配准需要解决密度变化、扫描视角差异、重叠度限制、重复和对称结构等带来的配准稳健性等问题(Dong等,2020)。与基于手工特征的方法(Rusu等,2009Guo等,2013Yang和Zang,2014Dong 等,2017)相比,基于深度学习的方法(Deng等,2018a2018b2019Yew和Lee,2018Wang和Solomon,2019)可以自动学习鲁棒性和表达能力更强的描述子,对于具有重复对称结构、弱纹理几何特征、重叠度低的场景具有突出的潜力。近年来,基于深度学习的方法已经成为计算机视觉领域中图像配准任务的基准方法,但是由于缺少大型点云数据集作基准,在3D点云配准领域,深度学习方法尚未给点云配准带来真正的变革。因此,武汉大学与慕尼黑工业大学、芬兰大地测量研究所、挪威科技大学、代尔夫特理工大学等相关大学的研究学者合作,联合发布了全球最大规模和最多样化场景类型的TLS点云配准基准数据集。本次公开的WHU-TLS基准数据集涵盖了地铁站、高铁站、山地、公园、校园、住宅、河岸、文化遗产建筑、地下矿道、隧道等10种不同的环境,共包含115个测站、17.4亿个三维点以及点云之间的真实转换矩阵。

WHU-TLS基准数据集的特点主要体现在: (1)基准数据集由测距范围、测量精度、观测视场等各异的主流激光扫描系统 (如VZ-400、IMAGER5010C、ScanStationC5、LeicaP40、Leica HDS6100)采集;(2)基准数据集场景丰富,涵盖地表覆盖、地物类型、几何形态各异的10种场景类型;(3) 基准数据集提供了包含极低重叠度的相邻点云(如隧道数据集的最小重叠度为5.5%);(4)基准数据集提供了包含重复对称结构的典型场景(如隧道数据集的墙瓦和高速铁路数据集的轨道),以及弱几何特征的典型场景(如隧道的顶部);(5) 基准数据集提供了包含运动对象(如校园、古建筑数据集),以及场景变化的数据集 (如山地数据集)。表1列举了WHU-TLS数据集的详细说明,包括数据采集设备,扫描站数,点数,覆盖范围,场景类型描述以及两两之间的最小和最大重叠度等。此外,该基准数据集也为铁路安全运营、河流勘测和治理、文化遗产保护、滑坡监测和地下资产管理等应用研究提供了典型有效的数据。科研工作者可以通过公开数据集网站http://3s.whu.edu.cn/ybs/en/benchmark.htm[2020-10-10]下载使用WHU-TLS基准数据集,该数据集提供了高精度的配准结果,为点云配准深度学习网络的性能评估和基于特征配准的传统方法评估提供可信任参考。

10.11834/jrs.20210542.T001

WHU-TLS基准数据集概述

Description of WHU-TLS benchmark dataset
名称扫描仪测站数

点数/

million

重叠度 /%
最小最大

WHU-TLS

Subway

IMAGER

5010C

6237.5723.764.3

WHU-TLS

Railway

VZ-400849.8610.966.1

WHU-TLS

Mountain

ScanStation

C5

619.6113.442.3
WHU-TLS ForestLeica HDS61005149.4534.655.5
WHU-TLS ParkVZ-40032160.2424.482.8
WHU-TLS CampusVZ-40010109.055.649.6

WHU-TLS

Residence

Leica P40743.701.091.4
WHU-TLS River bankVZ-4001393.1122.649.6
WHU-TLS Heritage buildingVZ-4009238.1628.769.4
WHU-TLS ExcavationVZ-40012482.429.072.8

WHU-TLS

Tunnel

VZ-4007157.025.5032.0
2.2 WHU-TLS地铁站数据集

WHU-TLS地铁站数据集采用Z+F IMAGER?5010C地面站激光扫描系统获取。该激光扫描系统集成了CCD相机和激光扫描仪,将丰富的色彩信息与高分辨率的扫描数据相结合。该数据集包含6个测站,共计约2.4亿个点,相邻点云之间最小重叠23.7%,最大重叠64.3%。地铁站场景主要由结构化元素(如电梯、柱子、墙壁)和移动的行人组成,为克服对称结构和移动对象影响的配准算法提供了典型测试数据。此外,地铁站场景还包含了大量由镜像反射引起的虚拟点,进一步增加了点云配准的难度。图1为地铁站数据集整个场景的概览以及每个扫描站的位置。

10.11834/jrs.20210542.F001WHU-TLS地铁站数据集WHU-TLS subway station dataset
2.3 WHU-TLS高速铁路数据集

WHU-TLS高速铁路数据集采用RIEGL VZ-400地面站激光扫描系统获取,包含8个测站,共计约0.5亿个点。WHU-TLS高速铁路场景主要由结构化的元素(如,铁轨、电线杆、平台)和非结构元素(如树木、岩石)组成。数据集提供了包含重复对称结构的典型场景(如,高速铁路的轨道),为铁路轨道三维模型重建和铁路安全运营等应用提供了合适的实验数据。图2为高速铁路数据集整个场景的概览以及每个扫描站的位置。

10.11834/jrs.20210542.F002WHU-TLS高速铁路数据集WHU-TLS railway dataset
2.4 WHU-TLS山区数据集

WHU-TLS山区数据集采用Leica ScanStation C5地面站激光扫描系统获取,包含6个测站,共计约0.2亿个点。WHU-TLS山区数据集由非结构化的岩石和草地组成。该数据集在跨度较大的两个时段采集(测站1—4在3月采集,测站5—6在8月采集),由于季节性变化以及人为采石等因素的影响,导致数据之间存在明显的变化,增加了相邻点云配准的难度。该数据集为多时项点云配准以及滑坡监测算法提供了适用的测试数据集。图3为WHU-TLS山区数据集整个场景的概览以及每个扫描站的位置。

10.11834/jrs.20210542.F003WHU-TLS山区数据集WHU-TLS mountain dataset
2.5 WHU-TLS公园数据集

WHU-TLS公园数据采用RIEGL VZ-400地面站激光扫描系统获取,包含32个测站,共计1.6亿个点。该数据集混合了人造结构(如建筑物、道路和护栏)和自然特征(如树木、灌木、山脉、河流和草地),属于典型的半结构化场景。图4为WHU-TLS公园数据集场景的概览以及每个扫描站的位置。

10.11834/jrs.20210542.F004WHU-TLS公园数据集WHU-TLS park dataset
2.6 WHU-TLS校园数据集

WHU-TLS校园数据集采用RIEGL VZ-400 TLS地面站激光扫描系统获取,包含10个测站,共计约1.1亿个点。该场景由混合的结构化元素(如建筑、道路、柱子和楼梯)和非结构化特征(如树木、雕塑和草地)组成,属于典型的半结构化场景。数据采集过程中移动的车辆和行人给配准算法的鲁棒性带来了挑战。图5为WHU-TLS校园数据集场景的概览以及每个扫描站的位置。

10.11834/jrs.20210542.F005WHU-TLS校园数据集WHU-TLS campus dataset
2.7 WHU-TLS住宅数据集

WHU-TLS住宅数据集采用Leica ScanStation P40地面站激光扫描系统获取,包含7个测站,共计约0.4亿个点。加快了加快数据采集效率,扩大了两个相邻扫描之间的距离,导致相邻点云之间的重叠度很低(如点云1和点云6之间的重叠仅为为1.0%左右)。此外,住宅数据集包含许多重复的结构(如窗户)和对称性的布局,进一步增加了点云配准的难度。图6为WHU-TLS住宅数据集场景的概览以及每个扫描站的位置。

10.11834/jrs.20210542.F006WHU-TLS住宅数据集WHU-TLS residence dataset
2.8 WHU-TLS河流数据集

WHU-TLS河流数据集采用RIEGL VZ-400地面站激光扫描系统获取,包含7个测站,共计约0.9亿个点。该场景由混合的结构化元素(如桥梁和道路)和非结构化特征(如树木和草地)组成。大部分激光脉冲被水吸收,在水面区域产生数据“空洞”,部分激光脉冲会被水反射产生“虚拟点”。河流数据集的目的是验证数据空洞孔和“虚拟点”对配准算法性能的影响,同时也为河流调查和治理应用提供了一个合适的数据集。图7为WHU-TLS河流数据集场景的概览以及每个扫描站的位置。

10.11834/jrs.20210542.F007WHU-TLS河流数据集WHU-TLS river bank dataset
2.9 WHU-TLS古建筑数据集

WHU-TLS古建筑数据集采用RIEGL VZ-400地面站激光扫描系统和5D Mark II相机获取,包含9个测站,共计约2.4亿个点。WHU-TLS古建筑数据集包含了非结构化的特征(如屋顶挑廊和瓦片),为古建筑的三维模型重建和文化遗产数字化保护提供了合适的验证数据。图8为WHU-TLS古建筑数据集场景的概览以及每个扫描站的位置。

10.11834/jrs.20210542.F008WHU-TLS古建筑数据集WHU-TLS heritage building dataset
2.10 WHU-TLS地下矿道数据集

WHU-TLS地下矿道数据集采用RIEGL VZ-400地面站激光扫描系统获取,包含12个测站,共计约4.8亿个点。WHU-TLS地下矿道数据集主要由非结构化的裸露岩石组成,裸露的岩石具有重复和对称的特征,增加了配准的难度。该数据集也为地下洞窟三维模型重建和地下资产管理应用提供了合适的数据集。图9为WHU-TLS地下矿道数据集场景的概览以及每个扫描站的位置。

10.11834/jrs.20210542.F009WHU-TLS地下矿道数据集WHU-TLS tunnel dataset
2.11 WHU-TLS隧道数据集

WHU-TLS隧道数据集采用RIEGL VZ-400地面站激光扫描系统和5D Mark II相机获取,包含7个测站,共计约1.6亿个点。WHU-TLS隧道数据集由重复和对称的结构(如地面和墙上的瓦片)和弱几何特征(如隧道的屋顶)组成,增加了同名点选择的不确定性。此外,两个扫描站之间的基线较长,导致相邻点云之间的重叠度较低(如点云4和5之间的重叠度小于6.0%)。同时,单向扫描和线性布局的测站容易导致配准误差的积累,进一步加大了WHU-TLS隧道数据集配准的困难性。图10为WHU-TLS隧道数据集场景的概览以及每个扫描站的位置。

10.11834/jrs.20210542.F010WHU-TLS隧道数据集WHU-TLS excavation dataset
3 WHU-MLS数据集3.1 概述

准确高效地城市场景理解在高清地图、无人驾驶、三维重建和智慧城市等方面起着非常重要的作用(Campbell等,2010)。得益于设备的便携性和灵活性,移动测量装备目前在城市制图和自动驾驶等方面也越来越受欢迎(Levinson等,2011Yang等,2015)。车载测量系统通常能够有效地获取大规模城市场景中高密度和高精度的3维点云(Yu等,2016),广泛应用于分类、目标检测、语义分割、实例分割等视觉任务。

点云语义分割是为点云中的每一个点赋予一个标签,对三维场景的理解具有非常重要的意义(Wang等,2019),但当前的大多数研究的关注点仍然是小物体或小场景(Hu等,2020)。与点云语义分割不同,点云实例分割不仅能区分每个点对应的类别,还可以区分同一类别中不同的对象(Jiang等,2020),可以应用到移动机器人和虚拟现实等应用(Han等,2020)。然而,点云的不规则结构、无序性和规模大等特点为点云深度学习带来了极大的挑战(Charles等,2017)。深度学习方法的性能依赖于高质量的标注数据(Behley等,2019Torralba和Efros,2011),在缺乏高质量的标注数据的情况下,训练有效的深度学习模型仍然是一个难点。高质量的标注数据可以让研究者更专注于算法能力的提升,而不受到数据采集和标注的影响,并且可以方便不同的方法在同一数据集上的比较(Tan等,2020)。

基于此,武汉大学与上海市测绘院合作发布了WHU-MLS基准数据集,标注了城区车载点云语义和实例两个层次的高质量信息,为语义分割和实例分割的训练、测试和评估提供了基准参考,服务于高清地图、无人驾驶、智慧城市和虚拟现实等前沿应用。和现有公开的点云深度学习数据集相比,WHU-MLS数据集有如下主要特点:

(1)大规模城市场景数据,具有城市场景点云密度大、分布不均、数据不完备等典型特点;

(2)采用逐点级别对若干典型地物进行高质量标注,类别达30余种,可满足语义分割的需求,每一个语义标签值代表一个类别信息。如图11中一种颜色代表一个类别,对应一种语义标签;

10.11834/jrs.20210542.F011语义标签Semantic labeling

(3)实例层次标注可以区分同一类别中不同对象或实例。实例标签值不具有特定意义,仅用于判断是否属于同一实例,即同一个实例的点云具有相同的实例标签,所属不同实例的点云具有不同的实例标签。如图12中不同颜色表示不同实例标签。语义标签和实例标签均不具有二义性,同一个点只属于同一个确定类别,属于0个或1个实例。

10.11834/jrs.20210542.F012实例标签Instance labeling

该数据集可通过公开数据集网站http://3s.whu.edu.cn/ybs/en/benchmark.htm[2020-10-10]下载使用,供点云语义、实例分割深度学习的训练、测试和评估使用(数据很快上线发布)。

3.2 数据介绍

WHU-MLS语义层面的标注包含6大类,30余小类。其中包括地面特征(机动车道、道路标线、井盖、非机动车道和其他地面点),动态目标(行人以及车辆),植被(树木、树丛、低矮植被和花坛),杆状地物及其附属结构(电线杆、独立提示牌、路灯、信号灯、市政立杆、独立探头以及杆状结构的附属结构),建筑和结构设施(房屋、景观建筑、道路隔离结构、围墙和栅栏)以及其他公共和便利设施(垃圾桶、邮筒、消防栓、街头座椅、箱状地物、电力线、棚子、公交站牌(台)、石墩等)。实例层次标注的有:房屋建筑类、景观建筑类、树木、路灯、电线杆、杆状结构附属物、独立提示牌、机动车、行人和非机动车、石墩、花坛、垃圾桶、井盖等。表2列举了该数据集中部分类别的说明和包含的主要结构。

10.11834/jrs.20210542.T002

WHU-MLS标注部分类别说明

Description of WHU-MLS benchmark dataset
类别说明包含结构
房屋建筑类住宅(楼)、办公房(楼)、商业房(楼)、图书馆等及其附属物(如室外楼梯)房屋的所有结构、房屋内所有结构、房屋附属结构,
景观建筑类校门、长廊、雕塑、亭/塔等建筑完整的建筑结构
树木可区分的单棵树木树干、枝叶,不包括树木下面的树坛
树丛不可区分单棵的成片树木全部树干、枝叶,不包括树木下面的树坛
路灯道路周边的照明路灯灯杆和灯的全部结构,不包括附属结构
电线杆电线杆电线杆及架线结构,不包括电线及其他附属结构
路灯附属物路灯灯杆附属物,如摄像头附属结构但不包括提示牌、广告牌
电线杆附属物电线杆附属物如照明灯附属结构但不包括提示牌、广告牌、电线
附属提示牌、广告牌附属于路灯或电线杆的提示牌和广告牌标牌及与灯杆、电线杆的连接结构
独立提示牌不附属于路灯或电线杆的提示牌,如交通提示牌提示牌、提示牌的支撑结构以及其所有附属结构
机动车机动车,如轿车、卡车、公交车等完整交通工具结构
行人、非机动车行人、自行车、摩托车、三轮车等行人及其附属物(比如手提袋、背包、自行车等)所有结构、交通工具所有结构
道路隔离结构道路与道路之间的实体隔离结构如护栏、花坛等道路与道路之间的实体隔离结构如护栏、花坛等
花(草)坛街道摆放的小盆栽以及灌木丛植被结构及其容器结构
独立棚子公交站台棚子、街头的雨棚等棚子的完整结构,包括支撑结构等

图13为部分类别的语义标注结果。从左到右、从上到下依次为路灯、低矮植被、垃圾箱、树木、行人、围栏、提示牌、电力线、道路标线、车辆、地面、消防栓、信号灯、公交站牌、电线杆、探头、树丛和市政立杆。

10.11834/jrs.20210542.F013部分类别标注结果Several typical semantic labeling samples

图14为对应的语义和实例标注结果。其中图14(a)图14(c)图14(e)为语义标记结果,图14(b)图14(d)图14(f)为分别对应的实例标记结果。语义标注结果按照类别赋色显示,即一个颜色标识一种特定类别,对应一个标签。实例标注结果中不同颜色标识不同实例对象,采用随机赋色显示。表3统计了WHU-MLS中不同类别标记的总点数、总实例个数以及所包含的场景数(共40个场景)。其中部分类别数量较少,根据不同的使用需求可以选择不同的方案与其他相似类别合并。

WHU-MLS部分场景的点云标注结果Several semantic and instances labeling samples in WHU-MLS10.11834/jrs.20210542.F014场景1 语义分割Semantic labeling of the first scene10.11834/jrs.20210542.F015场景1 实例分割Instance labeling of the first scene10.11834/jrs.20210542.F016场景2 语义分割Semantic labeling of the second scene10.11834/jrs.20210542.F017场景2 实例分割Instance labeling of the second scene10.11834/jrs.20210542.F018场景3 语义分割Semantic labeling of the third scene10.11834/jrs.20210542.F019场景3 实例分割Instance labeling of the third scene10.11834/jrs.20210542.F02010.11834/jrs.20210542.T003

WHU-MLS中各类别标注情况

Statistics of semantic and instance samples in WHU-MLS
类别地面植被
机动车道标线井盖非机动车道其他地面树木树丛低矮植被花坛
总点数17492723697942561071551556832250881514211562220785700114603791786664
实例个数1111979170
包含场景数403515362440403724
类别类别杆状及其附属设施
电线杆独立提示牌路灯信号灯市政立杆附属提示牌电线杆附属物路灯附属物独立探头
总点数1749163492804646782391131124327136176314246203334
实例个数612243271112828591359
包含场景数2138392321264327
类别动态目标其他设施
行人车辆垃圾桶邮筒消防栓街头座椅箱状地物电力线独立棚子
总点数114124998654091081712301332148651076216372553668
实例个数13557101134234817
包含场景数393928314326206
类别其他设施
公交站牌公交站台石墩其他
总点数352963896175336101248
实例个数24949
包含场景数115412
4 结 语

相比于大量发布的图像深度学习基准数据集,供点云深度学习的基准数据集的规模和类别相对较少。为推动点云深度学习等方面的发展,武汉大学和国内外多家单位合作,推出了迄今为止最大规模的WHU-TLS配准数据集和类别最多的WHU-MLS语义/实例分割数据集,为点云深度学习网络的训练、测试和评估提供了十分重要的参考,该数据集旨在鼓励中国学者使用自己的数据开展相关的研究,同时解决从事点云研究人员缺少数据的问题。此外,该基准数据集也为从事点云应用研究,如:文化遗产保护、地下资产管理、无人驾驶等,提供了代表性的数据。