2. 中国地震局地震预测研究所, 北京 100036
2. Institute of Earthquake Forecasting, CEA, Beijing 100036, China
中国地震预报长期以经验为主,缺乏严格统一的预报效能评估体系,会制约由观测现象、经验认识到理论模型构建和孕震机理解释的进程(张国民等,2002)。基于合理的统计检验模型,对不同时空尺度的地震危险性预测结果做出定量、科学、客观的评价,成为近年来地震预测预报领域的重要研究内容。结合地震发生情况科学系统地评价预测结果,一方面可以验证预测方法的可行性、模型参数配置的合理性,另一方面也是优化预报策略、完善预测模型的客观需求(蒋长胜等,2011;高朝军等,2013;闫伟等,2019)。
本研究系统梳理了常用地震预测模型产出的结果,大致可分为:时间序列类预测结果、线状要素预测结果(如地磁低点位移、重力固体潮零值线等)、边界确定的面状要素预测结果(如年度地震危险区)、边界模糊的面状要素预测结果(如综合概率预测结果等)、包含时间演化特征的面状要素预测结果等。据此国内外学者开展了大量相关研究,提出针对不同预测结果的评价指标,并应用于地震预测效能评价的研究实践。例如,美国南加州地震中心(SCEC)发起的全球“地震可预测性合作研究”计划(Collaboratory for the Study of Earthquake Predictability,CSEP),应用多种预测模型开展向前预测实践,针对不同模型的预测结果,选用地震数检验N-test(Kagan et al,1995;Schorlemmer et al,2007)、似然检验L-test(Helmstetter et al,2006)、比率检验Ratio-test、Molchan图表法(Molchan,1997;Molchan et al,1992、2008)、区域技能评分ASS-test和接受者操作特性检验ROC(Holliday et al,2005)6种方法进行预测效能的科学评价和模型的对比研究,通过系统总结进而辅助改进预测模型的构建(Schorlemmer et al,2010;Werner et al,2010)。我国自20世纪60年代开展大规模地震预报研究以来,逐步形成了长、中、短、临的预报思路和工作流程(梅世蓉等,1993),中期预报指对未来一、两年内可能发生破坏性地震的地区和震级的预测,并以年度预报的形式来实施,在我国地震预报实践中应用最广、积累资料最为完善。其主要思路是利用测震和前兆观测资料,结合专家经验和震例研究成果圈定未来一年可能发生破坏性地震的地区并给出震级强度,即年度地震危险区。国内研究人员在年度危险区预测效果的定量检验方面进行了一系列探索,例如,许绍燮(1989)在对1972年提出的震兆鉴定方法总结的基础上,提出了用于评价多边形区域地震预测效能的R值评分方法;其后,石耀霖等(2000)改进了R值计算方法,用虚报面积占全部无震面积代替预报时间窗口总和与总时长比例,并将该方法用于评价1990—1998年间国家地震局年度地震危险区的预报效能,认为中国大陆地区年度危险区预测效果总体上好于随机预报;张国民等(2002)为了讨论地震能否预报和评价当时中国地震预报能力等问题,将中国大陆分为931个1°×1°的网格,以报有震网格数占总网格数比例与虚报网格数占总无震网格数比例为评分值,评价1990—2000年年度危险区预报效果,认为虽然预报水平还相当低且不稳定,但年度危险区预测结果好于随机预测;马宏生等(2004)将中国大陆以107°E为界分为东部和西部,针对1990—2002年的年度地震危险区,计算东西部不同震级下限时的R值评分,结果表明,虽然年度危险区预测水平还很低且不稳定,但总体呈上升趋势。
综上,在众多地震预测结果评价方法中,R值评分方法已被广泛应用于年度危险区预报效果的评价和总结,该方法在优化改进年度危险区预测技术方法上发挥了重要的作用。由预测意见到结果评分,是一种“后验”的统计评价模型,然而对从R值评分方法和地震预测水平、地震活动性统计结果到预测危险区个数、空间尺度参数的“先验”性研究较少,本研究在前人工作的基础上,考虑历史地震的年度发生个数、地震“丛集”分布的统计学特征,利用随机分布和R值评分反推模型,从统计学的角度研究了年度危险区个数的最佳估值,对地震预测预报实践具有一定的参考意义。
1 年度地震危险区最大空间占有率计算公式推导 1.1 R值评分原理R值评分方法是当前普遍认可和使用的地震预测效能评价方法(许绍燮,1989;张国民等,2002;闫伟等,2019),20世纪80年代以来不断完善并广泛应用于年度地震危险区的预测效能检验,本文采用许绍燮(1989)的计算方法,用地震报准率和预测的时间或空间占有率之差计算R值评分,具体公式如下
R=h−τ=NpNg−SpSg⩾R0 | (1) |
其中,h表示地震报准率,为报准地震的个数Np与年度发生地震的总数Ng的比值;τ表示预测区域的空间占有率,为年度地震危险区的面积Sp与国土总面积Sg的比值,R值评分即为地震报准率与预报区域的空间占有率之差。最佳的预测效果对应于在最高的报准率(h→1)下付出最小的代价(τ→0),即R→1;反之,最差的预测效果对应于在最低的报准率(h→0)下付出最大的代价(τ→1),即R→- 1;通常认为R>0时,预报的成功率高于随机概率的成功率,该预报结果具有一定的预测效能(张国民等,2002)。
假设地震的发生是相互独立的,一定时段内发生的地震个数符合n重伯努利分布(泊松分布的离散化表达),该时段内单个地震的发生概率用预测区域的空间占有率τ表示,相应的显著性水平满足
α=N∑i=H[(Ni)τi(1−τ)N−i],(Ni)=N!i!(N−i)! | (2) |
其中,N表示地震总数,H表示报准地震的个数,α表示置信度。取α=5%,根据τ值反算伯努利分布下的报准率h,进而可以求得对应于置信度α的R值评分,并以R0表示,当R>R0时,认为该预测结果具有较高的统计显著性(Zechar et al,2008;Jiang et al,2010)。相应的概率增益Gain的计算方法为
Gain =1−mτ=hτ | (3) |
其中,m表示地震的漏报率。R0的计算方法为
R0=HN−τH | (4) |
其中,τH表示根据报准地震的个数H和5%的显著性水平反推出来的预测区域空间占有率。
1.2 R值评分与Molchan图表法的关系Molchan图表法(Molchan Error Diagram)是CSEP检验中心常规使用的预测效能检验方法,目前,已被广泛应用于确定性和概率性预测的统计检验和预测效能评估(蒋长胜等,2011;孙丽娜等,2012;张琳琳等,2019)。如图 1(a)所示,该方法主要使用预测区域的时空占有率τ和漏报率m两个变量进行评价统计,对于某一空间展布的预测变量,随着异常判定阈值的降低,预测区域的空间占有率逐渐增大,同时漏报率逐渐降低,二者的变化构成Molchan检验曲线。对于Molchan图表中的某点P0(τ0,m0),由于其与直线τ+m-1=0(即直线R=0)的距离为
![]() |
图 1 R值评分与Molchan图表法的转换关系 |
由中国地震台网中心历年的年度危险区预测实效的统计结果可知,目前年度地震危险区报准率的一般水平约为30%(Yu et al,2022),即h≈0.3;将年度地震总个数Ng、报准率和置信水平α,代入式(1)、(2),可计算出对应于置信水平α的R0;令R>R0,即可求得年度危险区空间占有率的上限,具体的推导公式为
τ⩽h−R0 | (5) |
S_p=S_g \cdot \tau=\frac{n {\rm{ \mathsf{ π} }} a b}{4} | (6) |
式(6)中,年度地震危险区通常为椭圆形封闭区域,a、b分别表示其长、短轴,本研究中均取其平均值约为300km;Sg表示国土总面积,约等于9.6×106km2,进而可以反推出年度地震危险区个数的最佳估值n,即
n \leqslant \frac{4 \cdot S_g \cdot\left(h-R_0\right)}{{\rm{ \mathsf{ π} }} a b} | (7) |
最后的关键问题在于如何科学合理地确定年度地震的发生个数Ng。
2 年度MS5.0以上地震发生个数 2.1 基于统计分布检验的年度地震发生个数计算方法年度地震危险区一般用于判定中国大陆东部(107°E以东) MS5.5以上、西部(107°E以西) MS6.0以上地震的可能发生区域,因此在年度地震发生个数的第一种计算方法中,以上述起始震级作为目标地震的筛选标准,分别统计了1900—2019年间各年度目标地震的发生个数以及其对应出现的频次,结果详见表 1。进一步计算得到该组数据的均值约为4.5个/年,方差约为8.96,表明该组数据的离散度较高,若利用均值作为年度地震的发生个数,会引入较大的不确定性,并影响年度地震危险区个数评估结果的合理性。
![]() |
表 1 1900年以来目标地震年发生个数及其频次统计结果 |
针对上述问题,拟引入统计分布检验方法,结合置信区间确定年度地震发生个数的估值,尽可能减小数据的不确定性,保证漏报率最低;同时考虑到地震目录的完备性,将1900—2019年间的统计结果截断为1950—2019年。依次对该数据源进行正态分布、Gamma分布、泊松分布、指数分布以及rayleigh分布最小二乘拟合,进而利用卡方检验(χ2)筛选出最优分布模型。具体操作方法为:将目标地震的年度发生个数代入各分布模型的拟合概率密度曲线,求出对应的观察概率值X并代入χ2检验计算公式,即可求出各分布模型的拟合概率密度曲线χ2值;对比置信水平为95%、自由度为17的χ2分布临界值,当χ2值小于该临界值时,表明观测值与实际值无显著差异,数据源可以通过该概率分布检验。统计分布检验的计算结果表明,地震年发生个数的最佳拟合分布为Gamma分布,其概率密度函数为
f(X)=\frac{X^{\alpha-1} \lambda^\alpha e^{-\lambda X}}{\varGamma(\alpha)} | (8) |
其中,α为形状参数,β为尺度参数,λ=1/β。拟合得到的数据分布频次及拟合概率密度曲线如图 2所示。
![]() |
图 2 地震年发生个数的频率分布及其拟合概率密度曲线 |
由于区域构造应力的集中和地震间相互触发等因素的影响,结合历年来发生地震的空间分布图像,可以得出年度MS5.0以上地震具有一定的“丛集性”。年度地震危险区一般为具有确定边界的空间区域,丛集性的存在导致多个地震可能同时落入一个地震危险区,当年度地震危险区的范围与地震发生丛集区域的重合率最高时,将取得最佳的预测效能。因此本研究中确定年度地震发生个数的第二种方法为:拟利用适当算法识别多年来年度地震“丛集区”和“孤立发生地震”的个数之和,进而结合多种统计分布模型和χ2检验确定出最佳概率密度曲线,最后代入式(7)计算年度地震危险区个数的最佳估值。
聚类算法是按照某个特定的标准(如距离)将一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一簇中的数据对象的差异性也尽可能的大。本研究拟采用基于距离的聚类算法自动识别地震丛集区,传统聚类算法如K-means等首先需要设置初始中心,进而通过迭代计算各点到初始中心的距离并求解新的中心坐标循环分类,直到达到一定的阈值或迭代次数为止。上述算法严重依赖于初始簇中心的选择,若直接将其应用到丛集地震的识别,难以确定“迭代结束阈值”而影响最终的识别效果;另外,每次计算都是在全数据域中,因此识别的效率较低。鉴于其局限性,本研究提出了一种简洁准确且不需要设置“迭代结束阈值”的地震“丛集区”和“孤立发生地震”的识别算法,具体操作方法如下:
(1) 假设一年中发生了n次地震,首先构建由这些地震间距离组成的初始矩阵D(d11,d12,…,d1n;…;dn1,dn2,…,dnn),dij表示第i和j个地震之间的距离,且dij=dji;对该矩阵中的各元素进行判断,若其小于指定的“分离距离” (丛集条件,本研究中取年度地震危险区长、短轴的平均值约为300km),则标记为1,否则标记为0;对上述标记数组逐列求和,筛选出小于1的列号,其对应的地震为“孤立发生的地震”(图 3)。
![]() |
图 3 “孤立发生地震”的识别方法 |
(2) 构建由[i,j,dij]组成的两两地震间的“离数组”,并根据第三列dij的取值判断,若大于“分离距离”,则该行置空,进而按照第三列dij取值的大小对“距离数组”进行升序排列。
(3) 如图 4(a)所示,距离最小的为1、2连线,其次为4、5连线,对1、2、3、4号点组成的数组进行组合运算,若新组合中的每一对点间连线的距离均小于“分离距离”,则将上述4个点划分为一个“丛集区”;反之,继续下一组连线重新进行组合运算和距离判断。
![]() |
图 4 改进聚类算法原理及地震“丛集区”识别实例 |
(4) 遍历完成第一轮以后,得到一系列地震编号组成的“丛集区一”,重新检索距离数组并将与“丛集区一”中点号相关的所有行置空,重复步骤(3),直到遍历完整个“距离数组”。
以2018年1月1日—12月31日期间中国大陆地区发生的MS5.0以上地震为例,利用上述算法扫描得到的丛集区结果如图 4(b)所示,其中,蓝色实心圆点代表应用该算法识别出的“孤立发生地震”,红色实心圆点代表识别出来的“丛集区”内的地震,红色空心圆代表直径为300km的“丛集区”,从中可以看出该改进算法具有较好的识别分类效果。当2018年的危险区个数等于本年度“孤立发生地震”的个数加上“丛集区”个数,即10个时,报准率保持在往年平均值的情况下(≈30%),理论上的空间占有率达到最低,能够取得最佳的年度预测效果,因此本研究中确定年度地震发生个数的第二种方法为:采用年度地震“丛集区”和“孤立发生地震”的个数之和作为统计结果,结合多种概率分布模型确定其最佳估值。
由于地震的发生在空间上存在一定“丛集性”,采用上述方法和前文中目标震级统计出的年度地震发生个数偏小,本方法中将目标震级下调为中国大陆地区MS5.0以上。利用上述算法扫描并统计1950—2019年间满足目标震级的各年度地震“丛集区”和“孤立发生地震”的个数之和,分别代入正态分布、Gamma分布、泊松分布、指数分布以及rayleigh分布并进行最小二乘拟合,结合卡方检验(χ2)筛选出的最优分布模型仍然为Gamma分布,拟合得到的数据分布频次及拟合概率密度曲线如图 5所示。
![]() |
图 5 年度地震“丛集区”与“孤立发生地震”个数及其拟合概率密度曲线 |
利用2.1中的方法,分别取α=0.15、α=0.10、α=0.05,通过计算拟合Gamma概率密度函数的分位数,得到85%、90%、95%三个置信水平下的年度地震发生个数的上限,以此作为背景地震个数。通过式(6),进一步计算得出了各置信水平对应的最大危险区个数及其空间占有率,详见表 2。3个置信水平下的最大空间占有率τ均满足年度地震危险区划定规则中要求的小于10%的限制,取h-τ最大的置信度90%这一组结果。在确保最低漏报率的情况下,得出具有统计学意义的年度地震危险区个数上限为9个(数据不含中国台湾),此为当前预测水平条件下,为获取最高预测评分所建议的每年危险区个数。
![]() |
表 2 基于统计分布检验的年度地震发生个数及年度危险区个数估值 |
利用2.2中的方法,同样取α=0.15、α=0.10、α=0.05,通过计算拟合Gamma概率密度函数的分位数,得到85%、90%、95%三个置信水平下的年度地震“丛集区”与“孤立发生地震”个数之和的上限。通过式(6),进一步计算得出了各置信水平对应的最大危险区个数及其空间占有率,详见表 3所示。只有95%的置信水平下对应的最大空间占有率τ略大于10%的限制,三组结果基本均满足条件,因此取h-τ最大的置信度95%这一组结果,即13个(数据不含中国台湾)作为年度地震危险区的最佳估值,这与中国地震台网中心年度会商所划定的危险区个数最为接近。
![]() |
表 3 基于统计分布检验的年度地震“丛集区”与“孤立发生地震”个数及年度危险区个数估值 |
本文针对年度地震危险区划分的问题开展了一些尝试性的研究,主要应用目前国内常用的地震预测效能检验方法——R值评分,推导了年度地震危险区个数的评估公式;结合多种统计分布和检验模型,给出了危险区个数的最佳估值,为年度会商中危险区个数的确定提供具有统计意义的参考。由于统计检验环节的输入数据不同,最终得到的年度危险区个数的参考值也略有差别。
(1) 对于第一种方法,即利用年度地震发生个数的统计值估算危险区个数,由于目标震级设定稍高(107°E以东为MS5.5以上,107°E以西为MS6.0以上),得出的年度地震危险区个数的参考值为9个,低于中国地震台网中心目前划定年度地震危险区个数的平均值(约13个),且偏离较大,原因在于该方法与实际检验方式不符合,其更适合于稍大震级的判定。
(2) 对于第二种方法,鉴于年度地震危险区预测效能检验过程中,通常选取MS5.0作为起始震级,筛选年度发生地震时将中国大陆东西部地区的目标震级统一设定为MS5.0以上,同时利用改进聚类算法对空间距离较近的地震进行了“丛集”化扫描,得出的年度地震危险区个数的参考值为13个,与实际工作中使用的个数一致,证明了目前的年度危险区划分方案具有一定的统计意义,且对判定年度MS5.0以上地震具有较好的应用实效。
高朝军、蒋长胜、韩立波等, 2013, 中长期地震危险性概率预测中的统计检验方法Ⅱ: N-test和L-test方法, 地震, 33(1): 47-55. |
蒋长胜、张浪平、韩立波等, 2011, 中长期地震危险性概率预测中的统计检验方法Ⅰ: Molchan图表法, 地震, 31(2): 106-113. |
马宏生、刘杰、吴昊等, 2004, 基于R值评分的年度地震预报能力评价, 地震, 24(2): 31-37. |
梅世蓉、冯德益、张国民等, 1993, 中国地震预报概论, 1-498,
北京: 地震出版社.
|
石耀霖、刘杰、张国民, 2000, 对我国90年代年度地震预报的评估, 中国科学院研究生院学报, 17(1): 63-69. |
孙丽娜、齐玉妍、温超等, 2012, 中长期地震预测中的PI算法改进研究及应用, 地震, 32(4): 44-52. |
许绍燮, 1989, 地震预报能力评分. 见: 地震预报方法实用化研究文集: 地震学专辑, 586-589,
北京: 地震出版社.
|
闫伟、刘桂萍、黎明晓等, 2019, 短期地震预测准确性的定量评价方法, 地震学报, 41(3): 399-409. |
张国民、刘杰、石耀霖, 2002, 年度地震预报能力的科学评价, 地震学报, 24(5): 525-532. DOI:10.3321/j.issn:0253-3782.2002.05.010 |
张琳琳、敖雪明, 2019, 基于Molchan模型的乌恰地震窗预测效能评价, 内陆地震, 33(1): 8-13. |
Helmstetter A, Kagan Y Y, Jackson D D, 2006, Comparison of short-term and time-independent earthquake forecast models for southern California, Bull Seismol Soc Amer, 96(1): 90-106. |
Holliday J R, Nanjo K Z, Tiampo K F, et al, 2005, Earthquake forecasting and its verification, Nonlin Processes Geophys, 12(6): 965-977. |
Jiang C, Wu Z, 2010, PI forecast for the Sichuan-Yunnan region: retrospective test after the May 12, 2008, Wenchuan earthquake, Pure and Applied Geophysics, 167(2010): 751-761. |
Kagan Y Y, Jackson D D, 1995, New seismic gap hypothesis: Five years after, Journal of Geophysical Research: Solid Earth, 100(B3): 3943-3959. |
Molchan G, Keilis-Borok V, 2008, Earthquake prediction: probabilistic aspect, Geophys J Int, 173(3): 1012-1017. |
Molchan G M, 1997, Earthquake prediction as a decision-making problem, Pure Appl Geophys, 149(1): 233-247. |
Molchan G M, Kagan Y Y, 1992, Earthquake prediction and its optimization, J Geophys Res: Solid Earth, 97(B4): 4823-4838. |
Schorlemmer D, Gerstenberger M C, Wiemer S, et al, 2007, Earthquake likelihood model testing, Seismol Res Lett, 78(1): 17-29. |
Schorlemmer D, Zechar J D, Werner M J, et al, 2010, First results of the regional earthquake likelihood models experiment, Pure Appl Geophys, 167(8): 859-876. |
Werner M J, Zechar J D, Marzocchi W, et al, 2010, Retrospective evaluation of the five-year and ten-year CSEP-Italy earthquake forecasts, Ann Geophys, 53(3): 11-30. |
Yu H Z, Yuan Z Y, Yu C, et al, 2022, The Medium-to-Short-Term Earthquake Predictions in China and Their Evaluations Based on the R-Score, Seismological Research Letters, 93(2A): 840-852. |
Zechar J D, Jordan T H, 2008, Testing alarm-based earthquake predictions, Geophysical Journal International, 172(2): 715-724. |