矿产资源国情调查数据库设计实现与大数据集成平台建设
矿产资源国情调查是自然资源统一调查监测体系的重要组成部分(鞠建华等,2022;李厚民等,2010),自然资源部通过开展国情调查,全面获取当前我国各类矿产资源数量、质量、结构和空间分布等基础数据,对不同矿种和类型矿产资源潜力状况作出评价,查明矿产资源与各类主体功能区的空间关系,全面掌握国内矿产资源保障能力和开发利用潜力(中国地质科学院矿产资源研究所,2015)。我国矿产资源储量数据长期以来存在重复上表、矿区矿山归属关系不清、坐标缺失偏移飞点、数据项漏填、数据不自洽等质量问题。2006-2013年开展了第一轮全国矿产资源国情调查,摸清了28种矿产资源家底,开创了一套行之有效的调查模式方法,取得丰硕成果,但存在未覆盖全部矿种,查明和潜力数据库建库标准未能衔接等不足。
本文通过制定全国统一的国情调查数据库标准规范《矿产资源国情调查数据库建设技术要求》,采集查明和潜力数据,规范数据库的建设内容、数据库结构、建库方法、成果数据质量检查和成果汇交要求等内容,按国家、省、市、县4级建设矿产资源国情调查数据库,实现国情调查成果集成管理、三维呈现与成果展示、应用服务等功能(赵汀等,2022)。矿产资源国情调查数据库数据类型复杂,不仅含属性数据,而且为了保证真实可靠也保留了非结构化的举证材料数据,包括外业照片、航迹、采样记录等过程性文件,研制了查明资源储量调查数据采集及质量检查软件、底数提取工具、矿产资源三维呈现系统、潜力评价建库辅助软件GeoMAG2019版本,实现国情调查数据的汇交、检查、整合、集成和入库工作的规范化、智能化,严格管控属性数据库、空间数据库的数据质量,最终建成了4.4万个矿区数据库和时空大数据平台。
1.国情调查数据库设计与实现
1.1国情调查数据库建设技术要求
1.1.1总体架构
矿产资源国情调查数据库建设,包括查明矿产资源、潜在矿产资源、地质三维三大要素。调查成果统一使用2000国家大地坐标系和1985国家高程基准。
矿产资源国情调查数据库的空间数据模型设计了7大类、26种空间要素和3大类、17种非空间属性要素,涵盖了矿产资源储量相关的各类数据类型,查明资源最小数据采集单元为矿体,潜力部分最小数据采集单元为成矿预测区。
1.1.2查明矿产资源国情调查数据库
以上表矿区和待确认矿产地为数据库入库单元(李厚民等,2014),矿体为数据最小采集单元,主要包括查明矿产资源的数量、质量、利用现状、成矿时代、空间坐标、专题图件,以及从普查到勘探开发时间周期长的报告等资料数据。数据格式分为ACCESS属性数据和矢量空间数据。
采集的图形数据要素分为省级、矿区和矿山3个层级,省级包括查明的省级汇总图件;矿区级包括矿区储量估算边界图、矿体储量估算图、矿区三维矿体展示成果;矿区三维矿体展示成果包含矿区地形地质图、剖面图的三维建模文件和矿体三维建模等文件;矿山级包括矿山地质及工程分布图、矿山矿体开采现状图、典型中段平面图或开采境界图和典型勘探线剖面图等图件。矿区储量估算边界图表达矿区范围内矿权、储量估算边界、压覆、功能区等空间关系,而矿体储量估算图是在综合调查基础信息上编制各年度生产动用空间位置,反映现在保有矿产资源的数量、结构、位置,有利于实现今后的储量动态管理。
1.1.3潜在矿产资源国情调查数据库
潜在矿产资源国情调查数据库以预测区作为数据库基本单元,采用统一的图件分层结构、代码、坐标系参数、图层属性表结构,编制省级单矿种(组)预测成果图库、省级勘查部署建议图库。通过潜力评价圈定预测区,充分反映地质背景研究、物化遥新发现和找矿突破等方面取得的最新成果,分析资源潜力的变化情况,调整预测资源量和空间范围。
1.1.4矿产资源储量三维建模
随着我国储量新分类改革工作的推进,储量估算方式方法需要逐渐与国际接轨(鞠建华等,2018),为推动全国矿山储量的三维化管理水平,国情调查要求大型矿区要建立矿体地质三维模型,使用三维地质建模软件,利用地形地质图和矿区勘探线剖面图,建立矿区三维地表模型和矿体三维实体模型,有条件的矿区采集矿区钻孔数据,包括钻孔位置表、钻孔化验表、钻孔测斜表生成品位块体模型,成果三维数据以矿区为基本单元。分层提供交换格式OBJ文件,坐标体系采用2000国家大地坐标系和1985年国家高程基准,经纬度坐标。同时提供建模文件的基准点坐标文件。实现储量的动态、可视化的管理,快速核算矿山储量消耗、保有资源数据,而进一步优化采矿设计、生产计划编制,实现资源利用的监督和动态管理。
1.2国情调查数据库软件系统开发
1.2.1国情调查查明资源的数据采集与质检软件
非油气矿产资源国情调查成果数据采集及质量检查软件是全国矿产资源同情调查中各省调查队伍开展国情调查数据库建库和质检的工具软件。系统包含主索引、表单打印、数据导入、数据检查、数据删除、数据导出、图形工具、查询统计、通用工具和系统设置等功能模块,实现非油气矿产资源国情调查成果数据的填报、数据质量检查和汇总,系统实现了数据采集窗口的实时填写校验,实现了快速质量控制的目的,形成符合技术要求的国情调查数据库。
1.2.2潜在矿产资源建库软件
对已开展过潜力评价的矿种进行动态更新(左群超等,2016),对未开展过潜力评价的矿种进行潜力评价,潜在矿产资源建库软件支撑省级潜力动态评价相关成果标准化入库(左群超,2015),相关图件主要由GeoMAG软件完成空间数据结构化、规范化填写入库和质检(丁建华等,2016)。
1.3国情调查数据库成果汇交与质量检查
截至2021年12月31日,全国30个省已基本完成4.4万余个调查矿区数据库建库,首先省承担单位自检,省项目办全面检查,然后汇交全国项目数据库组质量检查,采用机检结合人工重点检查的技术方法,发现存在一些数据不完整、缺失举证材料、数据不一致、三维文件格式内容不规范等问题,不符合要求的返回修改,最终形成的数据库质量较好,填写率、逻辑一致性、图数一致性等基本符合数据库建设技术要求。
1.4矿产资源国情调查数据库动态更新
自然资源部明确提出我国要建立矿产资源定期调查评价制度,2022年9月自然资源部标准平台公示了《矿产资源定期调查规范第7部分:查明矿产资源定期调查数据库建设技术规程》《矿产资源定期调查规范第8部分:潜在矿产资源定期调查数据库建设》《矿产资源定期调查规范第6部分:图件图示图例》3个征求意见稿,国情调查数据库将通过定期的矿山实地核查、测量、地质资料搜集等工作,对查明的未占用、占用、压覆、残留的数据进行动态更新,动态评价各成矿区带的资源潜力,更新潜力数据,全面掌握我国的矿产资源家底、开发现状、未来形势变化等信息。
2.矿产资源国情调查大数据集成云平台建设
2.1矿产资源国情调查大数据虚拟化云平台硬件搭建
各省汇交的国情海量数据分析处理需要强大的数据中心云平台算力支撑,选用虚拟化软件VMwarevSphere进行云平台的设计与实现,VMwarevSphere的核心组件ESXiServer可直接部署在服务器硬件之上形成ESXi主机,同时管理多台主机,集中管理存储、计算资源。当多台ESXi主机作为整体统一管理时,就形成了一个服务器群集,而多个服务器群集组合在一起,就构建成了一个虚拟的数据中心(宋越等,2016)。
2.2国情调查大数据云存储平台技术方案
国情调查大数据云存储平台基于Oracle和ArcSDE,采用客户/服务器(即Client/Server)体系结构,ArcSDE的主要功能是在关系数据库管理系统(RDBMS)和地理信息系统(GIS)之间充当一个应用接口,它在现有的关系或对象关系型数据库管理系统的基础上进行空间扩展,可以将空间数据和属性数据充分地集成在目前绝大多数的商用RDBMS中,实现空间数据和属性数据的无缝连接。
本次通过ArcSDEforOracle组件将图元实体分类存储到Oracle中。
2.3矿产资源三维呈现系统
矿产资源三维呈现系统采用微服务架构,基于Postgresql空间数据库、三维GIS平台,集成了国情调查数据库,实现国家―省―市―县―矿区―矿山多层级多年度的储量二维、三维信息一体化集成管理、三维空间信息分析、综合查询、统计汇总、快速服务等功能,从数量规模、环境、经济等多维度动态分析矿产资源的可利用性。
2.4基于矿产资源非结构化数据的知识图谱构建
2.4.1非结构化数据提取与入库
矿产资源数据的存在形式多样且复杂,而非结构化数据作为一种存在形式,包含了大量有价值的信息,同时,将非结构化数据融入矿产资源数据体系,充分发挥大数据技术在非结构化数据的自然语言处理方面的优势(王永志等,2018),有利于矿产资源数据库的构建与完善。
表格作为地学文件中重要的非结构化数据,蕴含了诸多有研究价值的信息,但由于表格数据标准不一(排列方式、大小、格式等),以人工的方式根据关键词提取需要耗费大量的人力物力,为了解决这个问题,本文使用了基于关键词查询的表格提取方法,利用信息化手段规模提取非结构化数据。
可以矿山企业年报、勘查报告、统计年报等包含海量数据的信息集合为数据源,根据数据源的文件类型分配不同的函数接口。将数据源接入系统后,根据输入的规则关键词,寻找符合表头关键词的所有表格,再根据规则关键词中需要屏蔽的关键词,对获得的数据集合进行进一步筛选,最后获得规范的包含所需信息的数据文件。
以相关企业列表中的企业名称为关联词,将提取出的数据相互关联,形成知识图谱构架所需的三元组(h,r,t)-(实体,关系,实体)以及(实体,属性,属性值),将所获取的三元组进行整合,消除矛盾和歧义。对整合后的知识进行质量评估,将合格的部分加入数据库之中。
2.4.2构建知识图谱
人工智能是大数据价值挖掘与提升的关键,而知识图谱则是人工智能的重要基石之一,是实现统计表征与物理表征融合的核心基础(周成虎等,2021)。知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,其基本单位,是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组,这也是知识图谱的核心。
以知识处理后的三元组为基础,利用ne04j图数据库存储根据实体名构建的节点、根据实体间关系构建的连接节点的边以及属性与属性值。并且,将相关信息以节点与边的形式显示。此处以钢铁资源企业信息为例。
2.5国情库中地质实体抽取入库规则设计
实体,顾名思义意为“实际存在的物体”,它是一个很笼统的概念,泛指现实世界中存在的一个事实,它是现实世界中独立存在的“事物”,它可以是物理存在的对象,也可以是概念存在的对象,就相当于面向对象方法学中对象的概念。国情库中的实体为地质实体,地质实体和空间实体之间是具体化和抽象化的关系。
地质实体极其复杂,虽然地壳中的地质实体的成因、规模、形态结构差别较大,但从几何学的观点来看,各种地质实体都可以归纳为面状构造、线状构造和体状构造。面状构造主要有层理(地层)、节理和断层(断裂)等;线状构造包括呈线性习性的构造以及各种平面的交线,如褶皱的枢纽和线理等;体状构造则是富集某些矿物成分的岩石体,有层状、似层状、脉状和透镜状之分。在现实世界中,地质实体内部以及相互间是有联系的,实体内部的联系通常是指组成实体的各属性之间的联系,实体之间的联系通常是指两个或两个以上实体之间的联系,如断裂和地层的关系等;地质实体的属性是用来描述实体的某些特定性质,在潜力评价基础成果数据中,对于特定的地质实体而言,其属性结构是固定的、数据项命名是固定的、数据项内容是由值域约束的(标准编码)。
国情调查成果数据中所涉及海量的地质实体,以及由这些简单实体按照指定规则、联系、构建而成的复杂实体,这些实体以点、线、面的几何形式存储在海量GIS图层文件中。
复杂实体是根据实际需求由若干简单实体组合构建而成,具备综合分析利用价值的、可用于描述某一带综合地质状况的实体,如典型矿床、预测工作区、成矿区带等,这些实体通常包含若干点状构造、线状构造或者面状构造,它是多种地质要素、地质构造的集合,是点、线、面多层次要素的汇总,将简单实体按照指定规则分布到不同点、线、面图层中,由这些图层一起构成的就是复杂实体,这里的复杂实体类似于某一个区域的完整地质图件的概念。
国情调查数据库集成过程中,为了研究需要通常会构建具有某个专题方面意义的复杂实体,在较高层次上对数据进行综合、归类和分析利用(赵汀等,2020),这种复杂实体我们称之为专题实体,例如,对黑龙江省钨矿分成矿区带进行综合研究时,需要提取出指定成矿区带范围内的岩体、断裂、褶皱等简单实体信息,和成矿区带范围进行叠加,所得的综合结果就是专题实体,从而在应用层面方便地组合形成专题成果。
3.结论
《矿产资源国情调查数据库建设技术要求》所设计的数据标准规范能够满足国情调查工作的需求,它涵盖了查明矿产资源数据库、潜在矿产资源数据库和三维建模三要素。在全国各级调查队伍的辛勤工作下,这套数据标准规范首次建成了一套最小到矿体的全矿种全覆盖的全国矿产资源国情调查数据库。
建立了一套完善的数据采集入库、汇交、数据质量检查、集成管理、动态更新的技术体系,为了确保数据的准确性和可靠性,特别开发了国情调查数据采集与质检软件,用于控制和管理数据质量。这套体系可以有效地保证数据的准确性和可靠性,提高数据质量,满足国情调查的需求。