2. 江西省地震局, 南昌 330026;
3. 辽宁省地震局, 沈阳 110034;
4. 国家海洋环境预报中心, 北京 100081;
5. 自然资源部海洋灾害预报技术研究重点实验室, 北京 100081;
6. 南京加宝囤信息科技有限公司, 南京 211164;
7. 中国地质大学(北京)地球物理与信息技术学院, 北京 100083
2. Jiangxi Earthquake Agency, Nanchang 330026, China;
3. Liaoning Earthquake Agency, Shenyang 110034, China;
4. National Marine Environmental Forecasting Center, Beijing 100081, China;
5. Key Laboratory of Marine Hazards Forecasting, Ministry of Natural Resources, Beijing 100081, China;
6. Nanjing GeoButton Information Tech. Co., Ltd, Nanjing 211164, China;
7. School of Geophysics and Information Technology, China University of Geosciences, Beijing 100083, China
“十五”项目“中国数字地震观测网络”的建成,标志着中国的地震观测已全面进入数字时代(刘瑞丰等,2008),测震数据的处理、管理与服务也相应进入了全新发展阶段。国家地震烈度速报与预警工程的实施和信息技术(Information Technology,IT)的应用,使地震监测网络在基础设施和技术手段方面再次取得长足进步,并促使测震台网数据治理业务得以可持续开展,数据管理服务技术平台得以不断演化。
目前,测震台网数据资源和数据量激增,站点数量是“十五”项目建设期间的15倍左右,日均数据量亦超过12倍。测震数据管理工作迅速发展,自2019年12月以来,除各类技术方案的编制以外,数据产品也由以应急产出为主,逐步发展为以基础性、常规性产出为重点,例如全国站网波形质量分析、中国大陆地区M≥4.0地震震源参数每月产出和分析(梁姗姗等,2022)、全国站网速度/加速度型事件波形处理和服务等,从而推动了测震台网数据治理业务体系的建设。这些都对国家测震台网中心(以下简称“国家中心”)数据处理技术系统提出了更高的要求,但国家中心现有软件通常是在一定时期内针对某一特定业务开发和使用,存在功能相对单一、处理对象有限、操作比较复杂、硬件设备老化等问题。鉴于数据量激增、数据业务迅速发展和现有技术系统分散等实际问题,国家中心有必要建立一套能够涵盖治理业务体系各环节的统一数据管理平台。
国家中心以传统网站、国际数据协议和社会性软件为基础,开展了数据管理服务方面的长期实践(邹立晔等,2017),为数据业务相关技术系统的进一步演化奠定了坚实基础。其他相关技术系统也在数据的存储和共享等方面有所尝试(吴峥等,2020;陈通等,2022;韩雪君等,2023)。同时,公安信息化工程的实施,为解决上述问题,进而以信息化思路推动测震台网向现代化发展提供了可能。
测震台网数据管理平台依托“公共安全信息化工程”,在数据资源池环境下,初步实现了实时流波形接入和存储、站网基础信息管理、常规数据产品产出、波形数据质量分析等测震台网核心业务的信息化。
本文从测震数据的业务场景和基础环境入手,阐述了信息化测震数据管理平台的架构、功能和结构的设计,介绍了数据的接入、存储、处理和服务等平台研发与实现的关键技术,并对平台在数据存储、事件波形服务等方面的业务应用加以说明,最后总结了平台的主要特点。
1 平台设计 1.1 数据资源池公共环境及测震数据管理平台业务场景公共安全信息化工程中国地震局建设项目分为软件和硬件两部分。软件系统研制包括测震数据处理、地球物理数据资源池和地震预报数据处理、预警速报数据处理、地震数据共享服务与运行管理软件以及数据质量控制软件、震害防御类和流动观测类数据汇集接口软件等7个软件包的开发;硬件部分则负责搭建公共安全信息化数据资源池,作为软件研发运行的公共环境。
根据项目整体设计,数据资源池主要包括Pulsar消息服务器、S3存储系统和MySQL关系型数据库等。对于测震数据管理平台而言,Pulsar消息服务主要用于本平台与其他软件包之间的资源共享,包括测震数据和产品的接入和分发、地震速报信息的获取等;S3存储主要用于波形数据的长期存储和交换;MySQL数据库用于存储波形数据索引,以及站网信息、观测报告、震源参数等地震数据和平台所用其他各类数据与信息(图 1)。
从信息化的本质这一角度考查,测震台网数据业务的信息化工作应当充分利用信息技术和数据资源,促进数据信息共享,提高数据管理服务质量,推动防震减灾事业发展(邹生,2009),这可以作为测震台网数据业务信息化和现代化的长远目标。
信息化测震台网数据管理平台设计的总体思路是:在测震数据治理业务体系和场景下,依托公共安全信息化数据资源池公共环境及信息技术,将设计分为两个阶段,首先搭建具备核心业务功能的管理服务平台,其次逐一针对各项功能(模块)进行精细化完善和持续性扩展,从而实现测震数据业务信息化。
当前第一阶段的基本思路是:通过分层架构和模块化开发,研制测震数据管理平台,将测震台网各类数据和产品汇集进入数据资源池,初步实现常规产品和针对特定地震的产品产出、台网波形时序质量控制、地震编目服务等业务的自动化,以实现测震台网数据核心的处理、管理和服务能力。
测震数据管理平台后续将继续围绕测震波形管理的实际需求,应用更先进的信息技术,结合业务信息化工作趋势,以元数据科学管理、质量评估指标扩展等为重点,加强速度型/加速度型数据的在线处理和标准化深加工能力,使测震台网数据业务向高质量和高效率发展。
1.3 架构设计测震数据管理平台采用分层架构设计,将软件系统划分为基础设施层、数据层、应用层和表现层(图 2)。
(1) 基础设施层,主要是指系统运行所必须的软、硬件环境。
(2) 数据层,以资源池为主体,包括关系型数据库层和数据文件层。其中,关系型数据库层包括数据表、视图、触发器等对象;文件层主要是与业务相关的各类文件。
(3) 应用层,对用户提交的指令和数据进行校验,按照指令的业务要求,对数据再加工后,将数据存储到数据层或将数据层的数据提取并返回给表现层。应用层可进一步划分为业务应用层和应用支撑层,分别面向用户业务,重点处理各种业务应用和为业务应用提供基于通用组件的实现支持。
(4) 表现层,为用户提供信息及用户指令翻译,包括提供用于用户交互界面的界面外观层和根据用户指令调用业务应用层相应接口并将数据传递至业务应用层的界面规则层。
在技术实现方面,平台利用资源池公共环境,基于Java的Springboot技术和B/S架构,以Pulsar作为消息中间件,利用Socket通信获取数据,使用S3进行文件存储,由MySQL关系型数据库存储波形数据(索引)和其他信息,采用ObsPy地震数据处理框架(Beyreuther et al,2010)处理和分析波形数据,利用GMT软件 ① 绘制地震科学产品图件,通过Vue.js技术编写前端页面,利用Redis数据库进行会话存储,采用Nginx进行Web服务器代理、Docker进行容器化部署,从而形成统一的数据处理平台。
1.4 业务功能和结构设计根据设计的总体思路和第一阶段基本思路,测震数据管理平台当前主要功能涵盖各类数据的接入、存储、产出、质控和服务等数据核心业务的全流程,包括:①以实时流波形为主的各类数据接入和存储;②站网基础信息的统一管理;③测震台网各类常规数据产品产出;④针对特定地震的图形化数据产品产出;⑤基于时序质量的波形质量分析;⑥各类数据和产品的接口开发与服务。
根据业务功能设计,测震数据管理平台由3个分系统构成。
(1) 数据接入与存储分系统:测震台网(含预警工程站点)的实时流波形接入以及各类站网基本信息接入,统一编目正式报、快报和速报目录等的接入,并将各类数据存储进入数据资源池。
(2) 数据处理分系统:基于数据资源池、Web界面、ObsPy处理框架、GMT绘图软件等基础环境,实现测震台网基础信息管理、常规和针对特定事件的产品产出与管理、时序质量分析等核心数据处理功能,以及平台用户、系统信息、界面菜单等管理方面的辅助功能。
(3) 数据服务(资源目录)分系统:基于数据资源池和Web管理平台,面向测震业务及其他软件包和用户,提供数据和产品的API接口服务,并形成资源目录。
2 关键技术 2.1 数据接入与存储分系统 2.1.1 波形数据的接入和存储测震数据管理平台的波形数据源主要包括3种,即“十五”期间测震台网所用的LISS协议实时流、预警工程站网所用的HTTP协议实时流和传统强震动触发站点汇集所用的FTP协议事件数据。各数据源的接入均包括创建和管理套接字(Socket)连接线程两个步骤,即首先通过Socket进行数据源的连接与数据的获取,并通过多线程机制,水平横向扩展更多的Socket连接;然后对多线程Socket连接进行管理。
实时流波形的数据源信息管理通过Web平台实现,波形数据的存储则主要结合上述数据处理分系统中波形处理模块实现。数据库中存储波形索引信息的表结构如 表 1所示。
除波形之外,本平台还接入了站网信息和观测报告。前者包括“十五”测震台网、强震动台网和预警工程站网的站网管理信息(站点代码和名称)、地理信息(经度、纬度、高程)、环境信息(场地类型、台基类型)、仪器信息(速度计/加速度计型号)、数据采集器信息(数采型号)、动力信息(供电方式和设备型号)等,由现有运行系统的数据库、电子表格等导入数据资源池,利用MySQL数据库存储。后者包括全国统一编目正式报目录和震相、快报目录及速报目录。正式报和快报数据通过数据库同步或抓取方式,纳入资源池的MySQL数据库;速报信息则取自Pulsar消息中间件中预警速报软件包的产出结果,继而存入资源池的MySQL数据库。
作为一套技术系统,平台基于B/S架构,还会产生会话(session)等Web交互信息。这类非业务数据,均利用Redis数据库进行存储。
2.2 数据处理分系统数据处理分系统是测震数据管理平台的核心部分。根据平台的功能设计,通过模块化对其实现,该分系统分为业务功能类、处理支撑类和通用辅助类共3类7个模块,其结构关系详见 图 3和表 2。
(1) 业务功能类模块实现数据产品的产出和管理等业务功能,包括站网信息管理、常规数据产品产出、针对特定地震的数据产品产出、数据质量控制与分析等。其产出功能主要依据业务流程,控制和调用处理支撑类模块,来处理波形或绘制图件,并生成数据产品;其管理功能则通常由数据管理者通过Web平台交互式地导入或上传数据产品。这类产品由国家中心自主产出,例如站点幅频/相频曲线图、地动噪声功率谱(PSD)图、震源参数数据等。
(2) 处理支撑类模块包括波形数据处理和图形绘制两个模块。前者是平台核心模块之一,其基于ObsPy地震数据处理框架(Beyreuther et al,2010),实现数据接入与存储分系统中的波形存储和处理功能,实现数据处理分系统中常规产品和针对特定地震产品的事件波形处理功能,以及完成测震速度型/加速度型记录的断记/重复记录、完整率和运行率等波形时序质量的计算与分析功能。后者基于GMT地图绘制软件,实现数据处理分系统中图形化产品的产出,例如统一正式报每月全国震中分布图、统一快报每日全球震中分布图、震区测震站点分布图等。
(3) 通用辅助类模块用于平台的系统管理。例如用户增删改查、角色分配和模块授权以及平台访问统计等。
以波形数据处理模块为例,在连续波形存储方面,该模块从Pulsar接收并解析数据包,得到台网、站点、位置代码、通道代码、开始时间、采样率等信息,将其存入MySQL数据库,并将数据本地存储为每小时单通道miniSEED格式文件,同时生成索引且存入数据库,最后通过接口上传至资源池S3系统,以FDSN WebService的文件结构进行存储。其中,连续数据按1h存储而未按24h存储,目的是为了减小数据的延时和冗余;数据索引与S3中信息一致。在波形连续率分析方面,该模块分析波形的断记和重复情况,对连续率、断记率、重复率及相关次数和时长等进行计算并存入数据库,最终由服务分系统进行展示。
2.3 数据服务分系统测震数据管理平台兼有数据服务功能,由数据服务(资源目录)分系统以基于Web平台和基于API接口两种方式加以实现,将存储和产出的测震台网各类数据和产品经数据资源池,提供统一服务。
2.3.1 基于Web平台的数据服务测震数据管理平台的Web平台以传统网站形式,对数据和产品按其类型加以展示和服务。平台各模块及其内容详见 表 3。
事件波形作为测震台网的重要常规产品,在本平台中,其处理是一个与资源池、用户、界面之间的交互过程。对于新近事件,平台以Pulsar实时流和S3文件为数据源,为用户提供Web交互方式的目录和站点选取以及波形的在线处理和图形展示。而对于历史数据,即平台建设之前的显著地震事件,则由数据管理者通过界面导入,与最新事件一同实现统一服务。包括事件波形在内的部分模块还通过WebGIS开发,并结合文本列表,用以动态展示站网、震中等的地理分布。此外,应用Redis数据库进行Web平台的会话存储,使在线信息交互和数据处理更加安全、高效。
2.3.2 基于API接口的数据服务数据服务分系统的API接口服务,以WebService形式实现公共安全信息化工程各软件包之间及测震数据管理平台内部前后端之间的数据共享,是测震数据信息化实现的重要手段之一。例如,波形API服务是当平台接收到数据请求时,将首先从MySQL数据库中查询站网基础信息,其次从S3存储中得到相应的波形数据,继而以JSON形式经Pulsar和S3反馈给用户,从而完成服务任务。针对地震数据共享服务与运行管理软件的事件波形API服务便是通过这种方式提供产品共享。与此相似,GMT绘图服务是当平台接收到绘图请求时,从MySQL中查询相关参数(如站网、目录等信息),生成GMT的Shell脚本,再执行该脚本,即可生成对应图像,然后同样以JSON形式反馈给用户,最终完成服务。
3 平台的业务应用 3.1 平台部署信息化测震数据管理平台部署于国家中心,共使用3台虚拟机,其中1台为主服务器,采用Docker容器化部署。平台远程访问资源池的Pulsar消息服务器和S3存储系统,经数据的存取、处理和计算,由本地MySQL数据库及平台接口与网站服务,提供数据的交互和展示。
3.2 功能实现通过部署,平台已实现了以下主要功能:
(1) 基于资源池的测震台网(含预警工程站网)实时流波形统一接入和存储:由资源池(Pulsar/S3/MySQL)存储替代原有文件系统,实现可视化的流服务接入信息管理。其中通过Pulsar实现数据流接入和分发,显著降低了从根服务器进行分发而影响业务运行的风险。
(2) 各类站网基础信息的统一管理:包括测震站网(含“十五”测震站网、强震动站网和预警工程站网)信息的增删改查等功能,由基于零散文件管理变为基于数据库/界面的统一管理平台。
(3) 增强了以观测报告为主的常规产品产出服务能力:重点基于编目数据,产出以图形化为主的常规数据产品,以及震源参数目录的常规管理,由此使常规产品种类更加丰富,展示效果更加完善。
(4) 集成化产出针对特定地震的数据产品:针对特定地震的各类数据产品的产出自动化和集成化,可替代原有命令行式的繁复操作,提升了产出效率,节约了产出资源。
(5) 基于时序质量的波形质量分析:主要包含完整率、运行率、中断时长、中断次数、重复率等,基于时序质量为主的波形质量分析可替代单一站网运行率计算软件,并为后续测震波形质量在线评价和评估提供技术平台。
(6) 通过数据产品服务接口,提升了测震台网数据服务能力:为后续二次开发和基于接口的服务奠定了基础,测震台网由数据服务逐步扩展为产品服务和接口服务。
3.3 应用实例测震数据管理平台与测震台网数据业务密切结合,在数据存储、事件波形服务、站网信息管理、数据质量评估、震源参数管理服务等方面均已得到初步应用,有效推动了地震事件波形数据处理与服务、数据质量评估和站网背景噪声分析、震源特征参数产出及基础数据库建设、全国站点观测系统特性档案建立等业务信息化。
3.3.1 数据存储应用本平台,测震台网核心数据均已纳入数据资源池,实现了海量存储,总量达约787.53万个文件、305.49万条记录,共约417.61TB(截至2023年12月10日)。表 4以波形数据为例,列出了数据接入和存储的基本情况。
应用本平台,国家中心已通过界面和接口两种方式,根据统一编目正式报目录,结合速报信息,按月提供中国大陆地区M≥3.0地震事件波形数据的常规服务,图 4为2023年12月19日9时46分21.2秒新疆阿图什M5.5地震事件服务实例。
通过本平台,国家中心对测震站网信息平均每月更新1次,并对站点观测系统幅频和相频特性产品进行常规管理(图 5)。依托本平台,震源参数在2022年1月正式业务化产出(梁姗姗等,2022)基础上,进一步形成了测震台网震源特征参数基础数据库(图 6)。地动噪声功率谱(PSD)、背景振动加速度噪声水平及波形均方根(RMS)等测震数据质量控制结果也可由平台进行管理和服务(图 7)。
测震数据管理平台以“共用、可用、易用”的信息化思维为指导,实现测震台网数据管理服务业务。从其所实现的业务和功能及所使用的资源和技术等不同角度考量,平台主要具备集成性、实用性、共享性和先进性等特点。
(1) 业务集成性。平台较为全面地涵盖了数据治理业务中测震台网数据的存储和管理、质量控制和分析、加工和产出,以及服务和共享等各个环节,目前在一定程度上集成并改善了测震台网的业务流程,并将处理、管理和服务融为一体。同时,对于绘图等过去需要在不同环境分步骤执行的操作(多为Linux命令行方式),实现了统一环境下的集成和(半)自动化。
(2) 功能实用性。平台从国家中心当前实际任务出发,分阶段研制,分情况处理,做到业务链条全覆盖,循序渐进,重点实现基础性业务。例如,就观测报告的服务工作而言,统一编目目录由平台对接原有业务系统,通过数据库同步来存储和共享,而作为观测报告重要组成部分的震源参数,则由数据管理者通过平台提供的接口和界面,直接导入或上传结果;图形化服务采用WebGIS服务、GMT绘图和图片上传等多种方式相结合,从而提高了平台的可用性。
(3) 资源共享性。数据资源池是平台资源共享的物质基础。测震台网诸多数据和产品通过资源池进行收发存取,实现平台内和平台间的资料交换。在同一环境下共用同一数据,如接收速报信息、分发站网参数、归档连续波形等,保证了数据的唯一性和权威性。此外,由Pulsar进行数据流接入也提升了测震实时流的共享能力。
(4) 技术先进性。平台的设计和实现综合应用S3存储、Pulsar消息服务,并融合Java Springboot、Socket、Redis、Nginx、Vue.js等一系列信息技术,以及ObsPy框架、GMT软件等地学专用工具,保证了平台技术方面的先进性。同时,软件包封装和WebService接口服务的实现保证了数据的安全性,模块化结构保证了平台的可扩展性。
5 结语信息化测震数据管理平台的设计、实现与应用为测震台网开展数据业务信息化工作奠定了基础,相关数据产品均可在地震行业网内由平台查询获取。但平台在波形数据的存取速度和服务接口标准化等方面均存在不足。根据设计总体思路和实际应用情况,平台功能仍需不断完善和扩展。这主要包括:①使用HBase非关系型数据库、TDengine时序数据库等类型的数据库,替代MySQL对波形数据的存储,以提升波形数据的处理效率;②引入常用滤波和数据处理方法,实现基于Web界面的波形处理和产品产出功能;③改进波形服务接口,实现基于FDSN WebService的国际标准(International Federation of Digital Seismograph Networks(FDSN),2019)。这些功能的实现在国内外地震数据处理软件中均不乏先例(邹立晔等,2017;陈通等,2022;West et al,2012)。
总之,信息化测震数据管理平台具备了数据治理业务的核心功能,是国家中心开展各项数据业务的有力工具,且通过实际应用,有效提升了测震台网信息化水平,为测震台网现代化发展发挥了积极作用。
致谢: 感谢中国地震台网中心测震台网部信息化工作组全体人员付出的努力。感谢中国地震局地球物理研究所王方建正高级工程师和河北省地震局李永庆正高级工程师在数据资源池与平台总体设计方面给予的帮助,中国地震台网中心陈通高级工程师、董翔高级工程师和吴峥工程师在软件开发与硬件支撑方面给予的支持,以及中国地震局地球物理研究所杨辉副研究员在数据管理、处理与服务方面给予的指导。编辑和审稿人在本文撰写过程中提出了宝贵的修改意见,在此一并致谢。
陈通、韩雪君、马延路, 2022, 时序数据库在海量地震波形数据分布式存储与处理中的应用初探, 中国地震, 38(4): 799-809. |
韩雪君、陈宏峰、赵国峰等, 2023, 中国地震台网波形数据整理及服务平台建设, 中国地震, 39(2): 412-424. |
梁姗姗、邹立晔、刘艳琼等, 2022, 2021年12月中国大陆地区M≥4, 0地震震源机制解测定. 地震科学进展, 52(1): 40-44. |
刘瑞丰、高景春、陈运泰等, 2008, 中国数字地震台网的建设与发展, 地震学报, 30(5): 533-539. |
吴峥、王方建、丁艳青等, 2020, 地震实时波形数据汇聚系统设计与实现, 中国地震, 36(3): 639-646. |
邹立晔、梁姗姗、刘敬光等, 2017, 基于互联网的地震监测及其发展, 科技导报, 35(5): 59-64. |
邹生, 2009, 信息化十讲, 北京: 电子工业出版社.
|
Beyreuther M, Barsch R, Krischer L, et al, 2010, ObsPy: a python toolbox for seismology, Seismol Res Lett, 81(3): 530-533. DOI:10.1785/gssrl.81.3.530 |
International Federation of Digital Seismograph Networks(FDSN). 2019. FDSN web service specification commonalities, version 1.2. (2019-06-27). http://fdsn.org/webservices/FDSN-WS-Specification-Commonalities-1.2.pdf.
|
West J D, Fouch M J, 2012, EMERALD: A web application for seismic event data processing, Seismol Res Lett, 83(6): 1061-1067. DOI:10.1785/0220110138 |