中国地震  2017, Vol. 33 Issue (4): 613-625
基于微博数据挖掘的九寨沟7.0级地震灾情时空特征分析
曹彦波, 毛振江     
云南省地震局, 昆明市盘龙区北辰大道148号 650224
摘要:2017年8月8日21时19分九寨沟发生7.0级地震,震后数小时里,大量与地震相关的信息广泛传播,互联网社交媒体高度关注,九寨沟地震成为最热议话题。本文以新浪微博为例,获取了距震中200km范围内震前、震后24h的微博数据,通过对数据清洗、分类和挖掘,分析了此次地震微博的数量、灾情分类、词频统计、时间序列和空间分布等特征,同时与实际灾评结果进行了对比分析。研究结果表明,对震后社交媒体数据进行充分挖掘,分析提取地震灾情关键信息,有助于对灾情的宏观把握,对救灾决策部署有一定的参考意义,是解决震后灾情获取难度大、覆盖小、时效性差等问题的一种有效的辅助手段。
关键词九寨沟7.0级地震    微博    灾情    时空特征    
Analysis of the spatial and temporal characteristics of disaster-information about the Jiuzhaigou, Sichuan MS7.0 earthquake based on data mining of Sina Weibo
Cao Yanbo, Mao Zhenjiang     
Earthquake Administration of Yunnan Province, Kunming 650224, China
Abstract: At 21:19 p.m., August 8, 2017, a 7.0-magnitude earthquake struck Jiuzhaigou, Sichuan Province. In a couple of hours, a great deal of the earthquake-related information spread on internet. The earthquake drew much attention from the social media and soon became a hot topic. In this paper we searched those Sina Weibo users who are within the range of 200km from the epicenter, and copied their Weibo data released 24 hours before and after the earthquake event. After cleaning, mining, and classifying these data, we analyzed their characteristics such as quantity, word-frequency, and classification, spatial and temporal distribution. We found that extracting data from the social media would help governments learn overall the post-earthquake information, and on this basis make decisions and arrangements for earthquake relief.
Key words: Jiuzhaigou MS7.0 earthquake     Sina Weibo     Disaster information     Spatial and temporal characteristics    
0 引言

21世纪以来, 在全球信息化和工业化高速发展的推动下, 出现了物联网和云计算, 人类进入了大数据时代, 与时空相关的位置服务和应用成为当前用来感知人类活动规律的重要手段(李德仁等, 2014; 刘经南等, 2014)。近年来, 随着互联网社交媒体的快速发展, 数量众多的个人成为信息传播的重要载体。据2017年1月份中国互联网络信息中心(CNNIC)发布的《第39次中国互联网络发展状况统计报告》 显示, 截至2016年12月, 中国网民数量达7.31亿, 互联网普及率为53.2%, 手机即时通信用户6.38亿, 微博社交媒体用户达2.42亿。统计结果表明, 相对于封闭的微信朋友圈, 以微博为代表的新兴社交媒体具有实时性、互动性、强扩散性、空间分布广泛性等特点, 特别是在重大灾害性事件发生后, 大量用户群体在社交媒体平台上发表言论, 使得社交媒体数据成为反映社会行为活动和灾害特征的重要数据源。

① 中央网络安全和信息化领导小组办公室等, 2017, 中国互联网络发展状况统计报告[EB/OL], (2017-01)[2017-10-30], http://www.cac.gov.cn/2017-01/22/c_1120352022.htm

2017年8月8日21时19分四川省阿坝藏族羌族自治州九寨沟县(33.20°N, 103.82°E)发生7.0级地震, 震中九寨沟景区是全球著名旅游景点, 且恰逢暑假, 国内外大量游客聚集, 震后数小时内, 震中附近电力通信未中断, 大量手机微博用户发布了与地震相关的信息, 各类信息广泛传播, 汇集形成海量数据。发布内容包括用户账号、发布时间、经纬度坐标、博文、图片、微视频等, 这些数据含有震感、人员伤亡、房屋破坏、生命线工程破坏、地震地质灾害等地震灾情相关信息。如何对这些海量的微博大数据进行分析和挖掘, 以提取与地震灾情相关的信息, 有效利用网络舆情信息辅助应急决策成为关键。在利用社交媒体数据进行灾害分析挖掘研究方面, 国外有关学者通过对Twitter数据进行分析和挖掘, 研究地震的实时预警, 监测灾害事件发生, 掌握事件发生的状况(Crooks et al, 2013; Sakaki et al, 2013)。在国内, 有关学者以新浪微博数据为基础, 围绕着灾害信息获取、处理、分析、表达和应用等进行了研究。王艳东等(2016)基于新浪微博文本数据的应急主题分类模型, 从实时、大量的文本流中快速分辨、定位突发事件的实况、救援等应急信息, 探寻突发事件随时间的发展趋势并分析可能的影响; 陈梓等(2017)利用微博信息分析台风灾害发展进程与受灾情况间的关系; 苏晓慧等(2013)针对公众通过微博发布的异常信息进行搜集筛选后, 根据筛选后的信息从时间角度、空间分布等方面进行了芦山7.0级地震前后宏观异常信息的分析研究。在地震后关于微博灾情挖掘分析方面的研究内容有地震灾情位置微博抓取方法、技术流程、微博灾情分类、空间可视化等(徐敬海等, 2015; 褚俊秀等, 2016; 曹彦波等, 2017)。

本文以新浪微博为例, 获取九寨沟7.0级地震震前、震后24h的微博信息, 对这些信息进行处理, 挖掘震后与灾情相关的信息, 分析微博灾情信息时空演变特征, 并与实际灾评结果进行对比分析。

1 数据获取

新浪微博数据获取途径有网络爬虫技术和调用微博官方API接口2种方式, 本文通过调用新浪微博的API, 解析服务器返回的JSON数据文档来获取九寨沟7.0级地震的微博信息, 新浪微博API接口提供的常用对象数据内容包括微博、评论、用户、隐私设置、消息未读书、短链、地理信息等7类数十个字段值。本研究主要获取微博ID、经度、纬度、发布时间、博文、缩略图等内容, 并计算各微博发布位置与地震震中间的距离, 生成用于地震灾情信息分析和挖掘的微博数据(表 1)。

表 1 微博数据结构设计

为了便于对震前与震后微博灾情数据进行挖掘及时空特征对比分析, 本次数据采集的时段为震前24h(2017年8月7日21时19分~8月8日21时19分)和震后24h(2017年8月8日21时19分~8月9日21时19分), 以九寨沟7.0级地震微观震中(33.20°N, 103.82° E)为圆心, 200km为数据采集半径, 获取研究区约12.5万km2内震前、震后24h内所有微博用户发布的信息, 共收集到了1414条震前微博数据、3659条震后数据(表 2)。

表 2 微博数据示例
2 数据处理

获取到的微博内容随意性较强, 口语化程度高, 短文本、多语言背景、错误拼写和缩写、使用特殊符号等对内容的理解造成困难, 但在表达内容的过程中仍会符合基本的句法规则(如“主谓宾”、“谓宾”等)。因此, 为提高数据挖掘效率和准确率, 需对原始数据进行解析、去重, 提取微博的发布时间、内容、图片、经纬度坐标等有效信息, 并对核心博文内容进行中文分词、清洗等挖掘处理, 滤掉一些频繁出现而意义不大的词, 比如“的”“就”“是”“和”等语气助词、副词、介词和连词, 提取与地震灾情相关的特征词、热词(图 1)。

图 1 微博数据挖掘流程

本文采用北京理工大学张华平博士研发的NLPIR汉语分词系统(又名ICTCLAS2016)分别对抓取到的震前24h内的1414条微博信息和震后24h内的3659条信息进行解析、去重、挖掘、中文分词等预处理, 然后结合人工解译和判读, 对数据进行分类, 提取与此次地震相关的特征词和关键词。经过对此次地震微博数据的挖掘和处理, 提取地震特征词汇并对这些信息进行了分类, 共分为人的反应、器物反应、房屋破坏、人员伤亡、生命线震害、地震地质灾害、救援行动、震情和其他等9类(表 3)。

表 3 四川九寨沟地震微博灾情信息分类
3 数据分析 3.1 微博数量统计

九寨沟7.0级地震发生前的24h内, 震中附近200km范围内微博日活跃量仅为1414条, 平均每小时59条, 单个小时段里最高122条, 最低6条。但在地震发生后的24h内, 微博活跃量总数激增至3659条, 为平时的2.6倍, 与地震相关信息达到2658, 高出平时约2倍。在震后第2个小时段内(8月8日22时19分~23时19分)地震微博信息高达414条, 为平时最高活跃量的3.5倍, 震后最低数也远远高于平时, 充分说明了此次地震事件在川滇地区乃至全国引起了社交媒体高度关注, 影响大, 范围广(表 4)。

表 4 震前24h内、震后24h内微博数据对比统计

震后24h内微博分时段数量统计分析结果表明(表 5), 地震发生后, 围绕地震相关的话题是微博用户热议的主题, 与地震相关的微博话题随时间增加而逐渐减少, 震后2h是微博发布的高峰区间, 微博数量增至485条, 与地震相关的微博数达到414条, 占总数的85.36%, 震后24h内该比例降至43.12%。

表 5 震后24h微博数量统计

通过对微博博文内容的解析发现, 地震发生后4h内, 与此次地震相关的信息有1339条, 其中, 人的反应信息1070条, 器物反应34条, 房屋破坏36条, 人员伤亡8条, 生命线震害39条, 地震地质灾害23条, 救援行动29条, 震情信息81条, 其他信息19条。灾情类别主要集中于人的反应、器物反应方面, 约占总数的86%以上, 人员伤亡、生命线工程破坏和地震地质破坏等信息较少(图 2)。

图 2 震后4h微博灾情数据分类统计
3.2 微博词频分析

经过分词解析, 统计对比地震前、后1h内微博词频可以看出(表 6), 在博文出现的名词中, 震前1h内排名前10位的高频词有“月亮”“风景”“人生”“九寨沟”等, 内容主要集中在个人感悟、心情、情感、九寨风景等描述, 而在震后1h内排名前10位的高频词中, “地震”高居首位, 达352次, 其余如“九寨沟”“震感”“台网”“震源”“感觉”等高频词, 全部均与此次地震相关。从解析出来的排名前10位的动词和形容词也可以看出, 震前以个人情感、兴趣、话题的关键字为主, 震后频频出现“发生”“测定”“祈福”“平安”“强烈”“安好”“明显”“吓人”等词汇, 说明广大社交媒体用户高度关注此次地震事件。

表 6 震前1h、震后1h微博高频词分类统计
3.3 微博发布数量时间序列及空间分布 3.3.1 震前24h内微博分时段特征

从震前24h(8月7日21时19分~8月8日21时19分)微博分时段发布数量的统计来看(图 3), 微博日活跃量与时间之间的关联度明显, 暑假期间, 九寨沟景区微博用户晚上使用时间高于白天, 在晚上21点左右出现使用小高峰, 是微博用户活跃时段, 过了凌晨则逐渐降低, 最低时段出现在13~16点, 该时段正值景区游览高峰期, 微博活跃度较低。

图 3 震前24h内微博发布数量时间序列
3.3.2 震后24h内微博分时段特征

从震后24h(8月8日21时19分~8月9日21时19分)微博分时段发布数量的统计来看(图 4), 其与平时相比差异较大, 震后微博活跃量明显增多, 日活跃量与时间序列特征显著, 在震后2h的23点左右出现微博发布峰值, 9日凌晨1点以后数量逐渐减少, 7点以后又缓慢上升, 逐渐平稳, 均匀分布。

图 4 震后24h微博时间序列
3.3.3 空间分布特征

通过对比地震前、后24h内微博数据的空间分布状况可见(图 5), 地震发生前24h内, 微博活跃量与地域分布间的相关性显著, 震中附近微博日活跃量较低, 受经济、人口结构等因素的影响, 微博活跃量的空间分布不均衡, 大部分集中在景区较远的九寨沟、松潘、若尔盖县城周边, 景区附近相对较少。但在震后24h内, 由于通信未受影响, 微博活跃量激增, 距震中越近, 微博活跃程度越远高于平时, 空间分布相对聚集, 沿九寨沟县城-九寨沟景区-松潘县城呈线状分布, 且主要集中在交通沿线的景区、景点、城区和乡镇的人口密集区域。

图 5 震中附近150km微博数据空间分布

获取到的微博灾情数据往往是在地理上分布不规则的离散数据, 为了能够更直观地了解地震灾情时空分布特征, 笔者采用克里金插值法(Kriging)对震后0.5、1.0、1.5、2.0h的微博灾情数据进行了空间拟合, 描述灾情在空间尺度上的变化特征(图 6)。由图 6可见, 震后0.5h内发布的微博灾情信息集中在九寨沟、松潘、若尔盖县城及道路沿线, 影响范围广; 在震后1~2h内, 微博粉丝活跃度逐渐增加, 信息发布量增多, 地震的有感范围增大, 震感较强烈的区域主要集中在震中附近的九寨沟景区, 强有感区边界也较清晰明显。

图 6 震后2h内微博空间影响范围示意图
4 对比分析

2017年8月12日, 中国地震局发布了九寨沟7. 0级地震烈度图, 此次地震的最大烈度为Ⅸ度(9度), 等震线长轴总体呈NNW走向, Ⅵ度(6度)区及以上总面积为18295km2, 共造成四川省、甘肃省8个县受灾, 包括四川省阿坝藏族羌族自治州九寨沟县、若尔盖县、红原县、松潘县, 绵阳市平武县; 甘肃省陇南市文县, 甘南藏族自治州舟曲县、迭部县, Ⅸ度(9度)区涉及四川省阿坝藏族羌族自治州九寨沟县漳扎镇, 面积139km。通过对震后微博信息的分类挖掘和灾情解析, 在震后4h内, 灾区Ⅵ度以上范围内与地震相关的微博有721条, 灾情类别有人的反应、器物反应、房屋破坏、人员伤亡、生命线震害、地震地质灾害、救援行动和震情信息等8类, 其中, 人的反应占总条数的80%。从空间分布情况看(图 7), 在烈度Ⅵ度区内, 灾情微博主要分布在松潘县牟尼乡、进安镇、川主寺镇、冰晶乡, 以及九寨沟县南坪镇、保华乡、双河镇附近等人口相对密集的城区和乡镇。烈度Ⅶ度以上区内, 灾情微博沿S301省道主要分布在九寨沟景区、漳扎镇、甲蕃古城、天堂洲际酒店附近。在烈度Ⅸ度区内, 朗寨村、漳扎村、荷叶社区、树正社区等地发布的信息大部分是震感描述, 也有房屋破坏、人员伤亡和次生灾害等的描述, 极震区烈度调查点与微博用户发布位置的空间分布基本一致(图 8)。

②中国地震局震灾应急救援司, 2017-08-12 20:56:37, 中国地震局发布四川九寨沟7.0级地震烈度图,[EB/OL], http://www.cea.gov.cn/publish/dizhenj/464/478/20170812211337414565961/index.html

图 7 震后4h灾情微博分类空间分布

图 8 极震区烈度调查点与震后4h微博灾情对比

图 7还可见, 震后1h内, 灾情微博相对较少, 且主要集中在烈度Ⅵ度区内, 但在震后17min(21:36:12), 在距震中10km的Ⅷ度区内, 1名位于九寨沟荷叶社区的微博用户发布了1条“强烈震感”的信息。随着时间推移, 与地震相关的灾情信息不断增多。如震后50min, 在距震中10km的漳扎镇荷叶社区1位微博用户(22:12:25)发布信息“九寨沟、松潘等地震感明显, 目前九寨沟县城多处房屋墙体脱落, 从九寨沟景区通往九寨沟县城的道路出现落石”, 并配发了现场照片(图 9)。震后2~4h是地震灾情获取研判、政府部门抗震救灾工作部署的关键期, 从地震发生开始计算, 此次地震灾评工作中队员集结、出发、到达调查点开展实地调查和烈度评定等的时间一般为6~20h。但是借助互联网广大社交媒体用户发布的数据, 在现场工作队到达灾区前, 我们可以直观地解析出大量与地震灾情相关的信息, 进而可获取有关灾区的第一手资料。通过对信息进行挖掘和清洗, 解析博文内容, 亦可快速获取地震的影响范围和灾害强度, 为灾情研判提供一定的信息支撑。

图 9 漳扎镇荷叶社区微博灾情 来源于新浪微博用户发布的信息
5 讨论

基于新浪微博API, 本文获取了2017年8月8日21时19分九寨沟7.0级地震震前、震后微博数据, 通过对数据进行分类、清洗、词频统计、时空特征挖掘分析后发现, 震后1~4h内, 微博用户活跃度较高, 信息量较大且丰富, 对信息的充分挖掘有助于对灾情的宏观把握, 可弥补传统获取技术的时效性差、数据量少、覆盖面小等问题, 本文取得了以下主要认识。

(1) 从微博数量统计分析来看, 震后微博活跃量总数激增, 总量、小时量的平均、最高、最低等数量指标均远高于平时, 超过2倍以上, 占震后与地震相关信息总数的73.4%。震后与地震相关的话题是微博用户热议的主题, 此次地震事件在川滇地区乃至全国引起了社交媒体高度关注, 影响大, 范围广。

(2) 从微博数据分类和词频统计来看, 震后与地震相关的微博信息可分为人的反应、器物反应、房屋破坏、人员伤亡、生命线震害、地震地质灾害、救援行动、震情和其他等9类。灾情类别主要集中于人的反应、器物反应方面, 约占总数的86%以上, 人员伤亡、生命线工程破坏和地震地质破坏等信息较少。震前震中周边微博讨论主题主要集中在个人感悟、心情、情感、九寨沟风景等的表达, 对震后1h内发布的博文解析后发现, 排名前10位的名词、动词、形容词基本是与地震相关的高频词。

(3) 从时间序列特征来看, 微博日活跃量与时间之间的关联度明显, 发震期间为暑假, 震前24h内, 微博用户活跃时段晚上高于白天, 21点出现峰值, 最低时段出现在13~16点。而震后24h内, 与平时差异大, 8日夜间23点和9日上午9点出现2个峰值, 自9日凌晨1点以后数量逐渐减少, 7点以后缓慢上升, 且逐渐平稳, 均匀分布。

(4) 从空间分布特征来看, 微博活跃量与地域分布的相关性显著。震前发布数量少, 空间分布不均衡, 震后微博活跃量激增, 空间分布相对聚集, 灾情微博沿S301省道主要分布在九寨沟景区、漳扎镇、甲蕃古城、天堂洲际酒店附近, 距震中越近, 空间分布越密集。根据空间插值拟合结果可知, 震后0.5h内, 发布的灾情微博信息空间影响范围广, 1~2h后, 随着微博信息发布量的增多, 地震有感范围的增大, 震感较强烈的区域主要集中在震中附近的九寨沟景区, 强有感区边界也较清晰、明显。

(5) 从灾情微博解析结果与实际对比来看, 震后2~4h内是地震灾情获取研判、抗震救灾工作部署的关键期, 快速获取震中附近微博数据, 对数据进行分析和挖掘, 提取地震影响范围和灾害强度, 通过人的社会感知, 真实客观地反映地震灾害, 对于重点救助区域、救援目标的确定有一定的参考价值。在实际地震灾情研判过程中, 依托大数据技术, 多手段、多渠道获取灾情, 相互对比印证, 对数据可靠性和信度作客观评估, 可使研判结果更具参考价值。

参考文献
曹彦波, 吴艳梅, 许瑞杰, 等. 2017, 基于微博舆情数据的地震有感范围提取研究. 地震研究, 40(2): 185–192.
陈梓, 高涛, 罗年学, 等. 2017, 反映自然灾害时空分布的社交媒体有效性探讨. 测绘科学, 42(8): 44–48.
褚俊秀, 徐敬海. 2016, 地震灾情位置微博抓取与展示. 地理空间信息, 14(5): 38–40.
李德仁, 姚远, 邵振峰, 等. 2014, 智慧城市中的大数据. 武汉大学学报:信息科学版, 39(6): 631–640.
刘经南, 方媛, 郭迟, 等. 2014, 位置大数据的分析处理研究进展. 武汉大学学报:信息科学版, 39(4): 379–385.
苏晓慧, 张群燕, 张晓东, 等. 2013, 基于微博的芦山地震前后宏观异常信息筛选与分析. 震灾防御技术, 8(4): 451–458. DOI:10.11899/zzfy20130413
王艳东, 李昊, 王腾, 等. 2016, 基于社交媒体的突发事件应急信息挖掘与分析. 武汉大学学报:信息科学版, 46(3): 290–297.
徐敬海, 褚俊秀, 聂高众, 等. 2015, 基于位置微博的地震灾情提取. 自然灾害学报, 24(5): 12–18.
Crooks A., Croitoru A., Stefanidis A., et al. 2013, Earthquake:Twitter as a Distributed Sensor System. Transactions in GIS, 17(1): 124–147. DOI:10.1111/tgis.2013.17.issue-1.
Sakaki T., Okazaki M, Matsuo Y. 2013, Tweet analysis for real-time event detection and earthquake reporting system development, Knowledge and Data Engineering. IEEE Transactions on, 25(4): 919–931.