随着对地立体观测体系的建立,遥感大数据不断累积。传统基于文件、景/幅式的影像组织方式,时空基准不够统一,集中式存储不利于大规模并行分析。对地观测大数据分析仍缺乏一套统一的数据模型与基础设施理论。近年来,数据立方体的研究为对地观测领域大数据分析基础设施提供了前景。基于统一的分析就绪型多维数据模型和集成对地观测数据分析功能,可构建一个基于数据立方的对地观测大数据分析基础设施。因此,本文提出了一个面向大规模分析的多源对地观测时空立方体,相较于现有的数据立方体方法,强调多源数据的统一组织、基于云计算的立方体处理模式以及基于人工智能优化的立方体计算。研究有助于构建时空大数据分析的新框架,同时建立与商业智能领域的数据立方体关联,为时空大数据建立统一的时空组织模型,支持大范围、长时序的快速大规模对地观测数据分析。本文在性能上与开源数据立方做了对比,结果证明提出的多源对地观测时空立方体在处理性能上具有明显优势 开源数据立方体是由卫星对地观测委员会CEOS(Committee on Earth Observation Satellites)推动的项目,目标是为了降低数据立方构建过程中的技术屏障,提供一种构建数据立方体的开源解决方案(CEOS,2020b)。开源数据立方面向卫星遥感数据,其通过对遥感影像进行重采样、重投影等处理,以瓦片的组织模式将数据纳入到统一的时空基准下进行管理。开源数据立方采用5个简单的数据表并结合JSONB格式来管理瓦片元数据,采用NetCDF格式存储瓦片数据。开源数据立方同样提供了OGC 网络覆盖服务和网络处理服务等接口,并且支持用户在Jupyter Notebook中自定义开发。
地球系统数据立方体是一个面向多源栅格数据的基础设施,该立方体将数据源作为一个维度,将多源栅格数据组织在一个统一分辨率和坐标系统的立方体中,有助于多源栅格数据的联合分析。该立方体主要采用Julia语言进行开发,同时也支持Python和R语言。数据存储方面采用Zarr数据格式在云上存储(https://zarr.readthedocs.io[2020-12-15]),通过文件目录的形式组织。针对每一个立方体实例有一个配置文件,描述了立方体的时空分辨率等信息。用户可通过文件传输FTP(File Transfer Protocol)的方式浏览目录并访问数据,也可通过OGC 网络覆盖服务来获取数据,或通过JupyterNotebook访问并分析数据。
本文提出了一个面向多源数据管理和大规模分析的立方体基础设施GeoCube,相比于已有的立方体方法:(1)GeoCube支持统一时空基准下的多源数据管理,包括栅格数据和矢量数据。基于商业智能领域事实星座模型管理元数据,可灵活扩展支持更多数据源;(2)GeoCube结合瓦片组织模式和云计算优势,支持多源数据的长时序大规模分析;(3)GeoCube引入人工智能领域技术,优化负载均衡性能,提高并行计算效率。
2 方法和设计
本文提出了一个新的地理空间数据立方体。首先,该立方体兼容多源地理空间数据包括栅格和矢量。针对数据特点,为立方体设计了4个维度包括空间、时间、产品以及波段。立方体中数据以空间对齐的方式组织,形成时间序列产品,因而该立方体又称为多源时空立方体。其次,立方体采用云计算技术来支持瓦片的高效处理,提出了一套面向立方体数据的分布式内存对象。目前支持矢量和栅格数据,可扩展支持轨迹等其他数据类型。最后,本文采用人工智能机器学习从数据科学的角度捕捉瓦片的计算特征,优化大规模并行计算过程的负载均衡性能,提高硬件的利用率。
2.1 立方体维度设计
2.1.1 立方体多维组织模型
对地观测数据通常由多维地理空间数据组成,维度包括时空维度以及其他主题维度。本文针对栅格和矢量数据特点,为立方体设计了4个维度如下(图1):