地震波形自动分类及识别(构想)

一、任务背景

随着地震仪在全球范围的大规模部署,人类已经进入地震大数据时代.如何处理地震网络每天收集的大量数据,特别是从质量参差不齐的连续波形记录中分离出地震和噪声是一个非常棘手的问题.大地震发生之后,抗震救灾与应急救援需要对余震序列进行动态的监测与快速定位,地震编目,地球内部速度结构研究如层析成像等都是以大量地震事件的挑选与到时拾取作为基础,而目前这些工作仍主要靠低效的人工完成。

发展高效、高精度、普适性强的自动波形拾取算法在地震大数据时代背景下显得越来越重要.波形自动拾取算法的主要挑战来自如何适应不同区域的不同类型地震事件的分类与筛选。

与基于单一或多个特征函数的传统方法相比,CNN 网络的精度和召回率(误检和漏检率)相比传统算法有非常明显的提升(降低),并且训练好的模型具有非常稳定的输出能力,不需要根据不同信噪比水平的数据频繁调整阈值.与模板匹配、FAST 等严格基于波形相似性的方法不同,CNN 神经网络从训练数据中提取的是抽象特征,这意味着模型具有更强的泛化能力,能够与更多样的波形特 征 相 匹 配,所 以 CNN 往往能够检测到新的地震类型,这也是深度学习方法的主要优势所在。

二、数据格式

汶川地震之后四川及邻区14个台站7~8月期间手动挑选的 13839 条和 8900 条地震事件波形分别构建训练数据集和测试集,搭建深度卷积神经网络进行模型训练和测试。

数据集包括:
1.stlist.txt:列出数据来自的站点。
2.wenchuan_aftershocks_picks_2008_6_to_9.csv:汶川余震的25000个P和S拾取的UTC时间戳(高度可信),您可以使用它为CNN数据集或U-net数据集构建正样本。如果您仍然不知道如何操作,第1和第2页将为您提供有关操作方法的说明。有关CNN数据集,您也可以参考https://github.com/mingzhaochina/ConvNetQuake。
3.wenchuan_bold_catalog.csv:用于构建CNN的负样本(噪声)。您需要在连续数据中避免这些时间戳处于某 个范围内,例如[-60s,+ 60s]。

三、拟采用方法及理由

多个地震事件建立数据集并训练 CNN 模型,其得到的模型具有较强的泛化能力,即使对与训练数据所属区域构造不同的地区,也能有效检测。

3.1、提高计算速度

1、减少噪声

尽可能减少事件人工标注和噪声随机筛选带来的误差,我们手动对数据集进行了清洗,更正较为明显的标注错误
应用长短窗方法,根据各地台站的信噪比
条件选择合适的阈值做初步筛选,这样做是为了提高算法效率,过滤掉大部分环境噪声

2、算法优化

使用L2正则化以及随机梯度下降算法来最小化交叉熵损失函数,并用 ADAM 优化算法以及可变时间步长,进一步提高了计算效率,在保证精度的同时有效提升计算速度。

3.2、提高泛化性

核心思想:理想的数据集的每一类别都需要充分的样本数量,并且能够覆盖地震波形所具有的各种复杂特征

1、提高地域相关泛化性

由于不同的区域具有不同地质构造背景,其事件波形也各不相同,因此我们参考历史地震活动性区域划分按照地震震中之间 的 欧 几 里 得 距 离 进 行 了 K-Means 聚 类 算法划分,增强 CNN 算法性能与地域的相关性。

2、提高学习效率

过多重复的数据需要设置合适的阈值,清洗掉部分数据,保证在维持低水平误差率的情况下避免过拟合。

3、数据增强

为了防止数据量过小可能导致的泛化性差,我们还对清洗后的数据集进行了数据增强操作。由于地震三分量波形可以看作一维三通道图像数据,可参照图像识别,采用了如下几种常用的数据增强方式:平移、加噪(模糊处理)、滤波。

同时 CNN 方法还可以通过将误分类波形代入数据集重新训练,从而获得越来越 好的实际分类效果。

3.3、实验与检测

1、使用精确率与召回率方法去验证训练效果

2、与传统方法的对比:对 CNN 网络识别为地震的波形片段,
可采 用dbshear震相自动识别程序进行挑取处理,将拾取到的 P、S到时与中国地震台网发布的参考地震目录进行关联对比,分析实际效果。