基于特征选择与BO−GBDT的工作面瓦斯涌出量预测方法

马文伟

马文伟. 基于特征选择与BO−GBDT的工作面瓦斯涌出量预测方法[J]. 工矿自动化,2024,50(12):136-144. DOI: 10.13272/j.issn.1671-251x.2024070022
引用本文: 马文伟. 基于特征选择与BO−GBDT的工作面瓦斯涌出量预测方法[J]. 工矿自动化,2024,50(12):136-144. DOI: 10.13272/j.issn.1671-251x.2024070022
MA Wenwei. Prediction method of gas emission in working face based on feature selection and BO-GBDT[J]. Journal of Mine Automation,2024,50(12):136-144. DOI: 10.13272/j.issn.1671-251x.2024070022
Citation: MA Wenwei. Prediction method of gas emission in working face based on feature selection and BO-GBDT[J]. Journal of Mine Automation,2024,50(12):136-144. DOI: 10.13272/j.issn.1671-251x.2024070022

基于特征选择与BO−GBDT的工作面瓦斯涌出量预测方法

基金项目: 国家科技重大专项资助项目(2016ZX05045-004-001)。
详细信息
    作者简介:

    马文伟(1985—),男,山西大同人,副研究员,硕士,主要从事矿井瓦斯灾害防治及煤矿智能化方面的研究工作,E-mail:120598723@qq.com

  • 中图分类号: TD712.5

Prediction method of gas emission in working face based on feature selection and BO-GBDT

  • 摘要:

    影响工作面瓦斯涌出量的特征众多,利用主成分分析等方法对原始数据降维,可节省计算资源,但会改变数据集的原始特征结构,损失部分原始数据特征的细节信息。针对该问题,建立梯度提升决策树(GBDT)瓦斯涌出量预测模型,利用5种特征选择算法对数据集进行特征过滤,分析每种特征组合在GBDT模型中的拟合度、计算时间及预测结果,优选出包装法为最佳的特征选择算法;结合现场实际,优选出8种特征进行瓦斯涌出量预测,结果表明,特征数量的多少与预测结果的准确性和泛化性并不呈正比关系,冗余特征或无关特征的存在反而会降低模型的预测准确性。为进一步提高模型精度,通过5种超参数寻优算法对GBDT模型进行超参数寻优,对比分析每一种超参数组合下GBDT模型的预测性能,结果表明:寻优算法本身对GBDT模型的准确性和泛化性影响较小,但基于树结构Parzen估计器(TPE)的贝叶斯优化(BO)算法所得出的最优超参数组合在GBDT模型中具有最高的准确率和相对较少的优化时间,其优化性能最佳,以此建立BO−GBDT模型。将特征选择后的数据集划分出训练集及测试集,利用BO−GBDT模型进行工作面瓦斯涌出量预测,并与随机森林、支持向量机、神经网络模型进行对比,结果表明:BO−GBDT模型具有更高的准确性和泛化性,其平均相对误差为2.61%,相比随机森林、支持向量机、神经网络模型分别降低了35.56%,37.41%,32.03%,能够满足现场工程应用需求,为矿井安全生产提供理论指导。

    Abstract:

    Gas emission in the working face is influenced by a variety of factors. Dimensionality reduction methods, such as Principal Component Analysis, can reduce computational resources but may alter the original feature structure, leading to a loss of some detailed information in the dataset. To address this issue, a gradient boosting decision tree (GBDT) model for gas emission prediction was developed. Five feature selection algorithms were applied to filter the dataset, and the model fit, computational time, and prediction accuracy of each feature combination in the GBDT model were analyzed. The wrapping method was identified as the most effective feature selection algorithm. Based on field conditions, 8 optimal features were selected for prediction. The results indicated that the number of features did not necessarily correlate with the prediction's accuracy or generalization capability. In fact, redundant or irrelevant features reduced the model's prediction accuracy. To further improve performance, five hyperparameter optimization algorithms were applied to the GBDT model. A comparative analysis of prediction performance for each hyperparameter combination was conducted. The results showed that the optimization algorithm itself had minimal impact on the accuracy and generalization of the GBDT model. However, the optimal hyperparameter combination, obtained through the tree-structured Parzen estimator (TPE) based Bayesian optimization (BO) algorithm, provided the highest accuracy and relatively short optimization time, yielding the best optimization performance. Thus, the BO-GBDT model was established. After feature selection, the dataset was divided into training and testing sets, and the BO-GBDT model was used to predict gas emission in the working face. Comparison with random forest, support vector machine, and neural network models showed that the BO-GBDT model achieved the highest accuracy and generalization, with an average relative error of 2.61%. This was 35.56%, 37.41%, and 32.03% lower than the random forest, support vector machine, and neural network models, respectively. The BO-GBDT model meets the field engineering application requirements and provides theoretical guidance for ensuring safe mining production.

  • 近年来虽然煤矿井下事故发生率逐年降低,但每年仍有较多的煤矿井下安全生产事故发生。据相关统计,由于工作人员的不安全行为导致的安全生产事故在中国煤矿井下安全生产事故中占比高达97.67%[1]。因此,研究井下工作人员的不安全行为对降低事故发生率、实现煤矿井下安全生产具有重要意义。

    由于煤矿数据的复杂性,利用大数据安全管理系统难以实现结构化不安全行为知识的语义关联及知识推理。知识图谱拥有较好的知识结构性及较强的表达性,能更加直观地描述各类概念之间的关系,从而实现井下不安全行为数据挖掘。知识图谱按照构造方式的不同可分为基于规则的知识图谱构建方法、基于统计的知识图谱构建方法和基于深度学习的知识图谱构建方法3类。① 基于规则的知识图谱构建方法。N. Guarino等[2]提出基于本体学的知识表示和推理方法OntoClean,其通过定义本体的基本概念、属性和关系等方式来表示和推理知识,OntoClean已广泛应用于语义Web和知识图谱的构建。但OntoClean只能处理简单、单一的知识,难以应用于丰富、复杂的知识领域中。Horrocks等[3]提出SWRL(A Semantic Web rule language combining OWL and RuleML),该方法可与OWL(Web Ontology Language)等本体语言结合使用,以表示更加丰富和复杂的知识,可处理多层次和不对称的语义关系。但SWRL和OWL 这2种基于规则的方法需领域专家对知识进行抽象和分类,且需手动构建规则和逻辑表达式,知识图谱的构建过程较耗时和复杂,且缺乏自适应性。② 基于统计的知识图谱构建方法。A. Bordes等[4]提出了一种基于超平面转换的知识图谱嵌入方法,称为TransE,该方法使用向量空间中的超平面来表示实体和关系之间的转换,以便在低维空间中对知识图谱进行建模。但该方法只能处理单一类型的实体。 Wang Zhen等[5]对TransE进行了扩展,提出了一种适用于含有异质实体的知识图谱嵌入方法,称为TransH,该方法将实体投影到不同的超平面上,以处理不同类型的实体。但基于统计的知识图谱构建方法只能对语言表面的信息进行提取,难以理解语言中的隐含信息和语义,难以准确捕捉实体之间的关系。③ 基于深度学习的知识图谱构建方法。刘文聪等[6]采用双向长短时记忆(Bidirectional Long Short-Term Memory,BiLSTM)模型与条件随机场(Conditional Random Field,CRF)模型相结合的方式抽取中文地质时间信息,在一定程度上解决了传统方法特征提取不足的问题。吴闯等[7]利用BERT(Bidirectional Encoder Representations from Transformers)−BiLSTM−CRF模型对航空发动机设备润滑系统进行命名实体识别,先利用BERT模型进行词向量化,再进行实体识别,在一定程度上改善了实体识别的效果。然而,传统的BERT模型在进行词语向量化时易造成大量实体和语义丢失。

    虽然知识图谱已广泛应用于各个领域,但在煤矿安全方面,尤其在煤矿井下不安全行为方面的研究较少。因此,本文提出了一种基于煤矿井下不安全行为知识图谱构建方法。首先,针对煤矿井下不安全行为的命名实体识别问题,结合现有的知识,用传统机器学习和深度学习算法相结合的方法进行命名实体识别,采用RoBERTa(Robustly Optimized BERT pretraining Approach进行词语向量化后,通过BiLSTM对向量进行标注,提高网络模型对上下文特征的捕捉能力。其次,根据语句的结构特点,设计了基于知识三元组的依存句法树结构,并根据该数据结构对井下不安全行为领域的知识资源进行知识抽取与表示。最后,利用图数据库Neo4j存储煤矿井下不安全行为知识,形成井下不安全行为知识图谱。

    知识图谱的主要任务是使用符号的方式去描述本体的概念及其相互之间的关系,其本身是具有属性的实体通过关系链接而成的网状知识库。其基本组成单位是“实体−关系−实体”及“实体−属性−属性值”三元组[8-10]。当前,知识图谱主要分为自顶向下及自底向上2种构建方式。

    自顶向下的知识图谱构建方法是从较高质量的结构化数据源中获取数据资源,并根据结构化数据源中预先定义的实体关系来构建完整的知识图谱[11-12]。自顶向下的知识图谱构建分为以下3个步骤:① 通过大量结构化数据源完成本体知识库的构建,包括本体学习和相应规则制定。② 进行实体学习,主要包括实体链接和实体填充2项任务。③ 构建图谱。

    自底向上的知识图谱构建方法是从大量知识密度小且没有固定关系的半结构化[13-14]、非结构化数据源中获取知识资源,从而完成知识图谱的构建。自底向上的知识图谱构建主要包含知识抽取、知识融会及图谱构建3个步骤。其中知识抽取包含实体识别、关系抽取及属性抽取3个任务,知识融会的主要任务是进行实体消歧。

    由于本文采用的是开放数据源,其中包含大量半结构化、非结构化数据,故而采用自底向上的知识图谱构建方法。

    本文采用的数据源主要为开放的文献知识资源及《煤矿安全规程》中的相关规定。其中文献知识资源是从知网中主题或关键词为“不安全行为 煤矿”检索得到的文献。经筛选,保留其中210篇作为实验数据。本文采用BIO(Beginning−Inside−Outside)标准标注策略对不安全行为实体进行标注。通过参考中国国家标准化管理委员会发布的煤矿科技术语汇总表,对文献[1]、文献[15]中关于不安全行为的研究内容进行分析,将井下不安全行为实体分为遗忘性行为、粗心性行为、错误性行为、违反性行为、关联因素影响行为及导致后果6种,见表1。将属于一个命名实体开始的token标记为B−label,对于属于命名实体类型但不是第1个字的token标记为I−label,其他不属于命名实体范围的统一用O进行标记。

    表  1  实体待预测标签
    Table  1.  Entity to be predicted labels
    实体类型 开始标签 中间或结尾标签
    遗忘性行为 B−forget I−forget
    粗心性行为 B−careless I−careless
    错误性行为 B−error I−error
    违反性行为 B−violate I−violate
    关联因素影响性行为 B−factor I− factor
    导致后果 B−cause I−cause
    下载: 导出CSV 
    | 显示表格

    针对井下不安全行为实体识别中实体数量庞大、交替频繁、语义复杂等问题,需选择合适的命名实体识别方法。基于监督的统计学习方法在实体识别过程中依赖大型标注语料库进行模型训练,不适合没有专业大型语料库的井下不安全行为,容易出现实体识别不准确的情况。因此,本文采用改进神经网络模型实现井下不安全行为实体识别。在BiLSTM−CRF基础上引入RoBERTa及多层感知机(Multilayer Perceptron,MLP)作为井下不安全行为命名实体识别模型(RoBERTa−BiLSTM−MLP−CRF)。将预处理后的数据分为训练集和测试集,训练集通过RoBERTa模型将输入的文本序列转换为具有丰富上下文语义的词向量,RoBERTa模型的输出向量作为BiLSTM模型的输入,以提取上下文的特征值。由于所获得的煤矿井下不安全行为语料数据量少,为了获得更好的模型训练效果,在BiLSTM 层与CRF层中间加入MLP,并将开源数据集的输出维度与煤矿数据集输出维度进行统一,达到迁移学习的目的。CRF模型用于标注输入注释序列的实体。具体实体识别流程如图1所示。

    图  1  基于RoBERTa−BiLSTM−MLP−CRF实体识别过程
    Figure  1.  RoBERTa-BiLSTM-MLP-CRF based entity recognition

    RoBERTa模型是一种基于Transformer神经网络的预训练模型。当前,基于神经网络的预训练技术主要分为静态词向量与动态词向量2大类。① 静态词向量。Word2Vec[16]词向量模型能从大规模语料库中得到高精度的词向量。Glove[17]模型结合了Word2Vec及矩阵分解模型(Singular Value Decomposition,SVD)的优点,训练速度显著提高。静态词向量模型在一定程度上可得到较为精准的词向量,但无法解决一词多义的问题。② 动态词向量。ELMo模型[18]采用长短时记忆(Long Short-Term Memory,LSTM)模型,在一定程度上解决了一词多义的问题。但ELMo模型采用的双向拼接特征融合方式比一体化的融合方式要弱。BERT模型[19]采用双向语言模型、掩码语言模型(Masked Language Model,MLM)和NSP(Next Sentence Prediction)3种技术,在现阶段自然语言领域中被广泛应用,但BERT庞大的参数量使得实际应用面临困难。RoBERTa模型对 BERT模型的超参数进行改进,与 BERT模型相比,RoBERTa模型拥有更优越的模型性能。RoBERTa采用动态掩码的方式学习不同的特征,解决了传统BERT训练时大量短语和实体丢失的问题。由于煤矿井下不安全行为文本数据比较复杂,存在大量一词多义的现象,导致实体识别效果较差,因此,本文选择RoBERTa作为词向量抽取模型,其模型如图2所示,其中X1X4为词的向量化特征,E1E4为输入文本序列。

    图  2  RoBERTa模型
    Figure  2.  RoBERTa model

    LSTM模型在进行文本特征提取时,利用其复杂的网络结构可较好地捕获长距离依赖关系,但对于输入信息无法进行反方向解码,不能捕获双向语义依赖关系。煤矿井下不安全行为文本数据具有冗余特性,其数据文本语句通常较长且关系复杂。因此,提出BiLSTM模型,如图3所示,Xt为当前时刻t的词向量化特征,ht为当前时刻t的隐藏状态,表示BiLSTM模型的输出结果。BiLSTM模型在命名实体识别模型中的作用是捕获文本序列的上下文特征,对双向语义依赖关系进行捕捉。

    图  3  BiLSTM模型
    Figure  3.  BiLSTM model

    由于煤炭领域数据的复杂性,能够收集到的煤矿井下不安全行为数据量较小,模型训练结果相对较差。为解决该问题,本文在BiLSTM层与CRF层中间加入MLP[20],将开源数据集输出维度与煤矿数据输出维度进行统一,利用知识迁移的方式弥补数据量不足的问题。首先,通过RoBERTa、BiLSTM与清华大学的开源数据集THUCNews进行训练,得到1个初始模型,该模型已获得THUCNews数据集中包含的一些特征参数,将其作为煤矿数据集训练初始模型参数;其次,通过MLP将开源数据集THUCNews输出维度与煤矿数据集输出维度进行统一。MLP模型结构如图4所示。

    图  4  MLP模型
    Figure  4.  MLP model

    虽然经过BiLSTM及MLP模型之后输出的信息是选择输出概率最高的标签,但没有考虑到不同单词之间的关系,输出的标签可能会混淆且缺乏逻辑。因此,引入CRF模型来解决单词关系不识别问题,并捕获全文信息和预测结果。该模型可表示为$P(x | y) $,其中,x为输入变量,表示输入的观测序列;y为输出序列,表示对应x的标签序列。假设给定一个输入序列$x=\left(x_1, x_2, \cdots, x_n\right) $和相应的标注序列$y=\left(y_1, y_2, \cdots, y_n\right) $,且每个(xiyi)对是线性链中最大团,若同时满足式(1),则称$P(x | y) $为线性链的条件随机场。

    $$ P({{y}}_{i}|x,{y}_{1},{y}_{2},\cdots,{y}_{n})=P({y}_{i}|x,{y}_{i-1},{y}_{i+1}) $$ (1)

    式中:i为当前字符所在位置;n为输入句子长度;$ {y}_{i} $和$ {y}_{i-1} $分别为当前单词的标签及前一个单词的标签。

    给定预设的观测序列x,CRF模型求解隐态序列y的公式为

    $$ P(y|x) = \frac{1}{{{\textit{z}}(x)}}\left( {\sum\limits_{i,j} {{\lambda _j}} {t_j}({y_{i - 1}},{y_i},x,i) + \sum\limits_{i,l} {{\mu _l}{s_l}} ({y_i},x,i)} \right)\;\;\; $$ (2)
    $$ {\textit{z}}(x) = \exp \left( {\sum\limits_{i,j} {{\lambda _j}{t_j}({y_{i - 1}},{y_i},x,i) + \sum\limits_{i,l} {{\mu _l}{s_l}({y_i},x,i)} } } \right) $$ (3)

    式中:$ {t}_{j} $为i处的传递特征;$ {\lambda }_{j} $为$ {t}_{j} $对应的权重;$ {s}_{l} $为i处的状态特征;$ {\mu _l} $为$ {s}_{l} $对应的权重;jl为特征函数的数量;${\textit{z}}(x) $为归化因子。

    线性链CRF模型(图5)对标签之间的约束关系进行预测,以此提高命名实体识别的准确性。

    图  5  线性链CRF模型
    Figure  5.  Linear chain CRF model

    对每个单词进行评分,条件概率模型$P(x | y) $通过最大似然估计来计算。在实际预测过程中,对于给定的观测序列,计算其最大标签序列。评分公式为

    $$ s(y|x) = \sum\limits_{j = 1}^m {\sum\limits_{i = 1}^n {{u_i}{f_j}(x,i,{y_i},{y_{i - 1}})} } $$ (4)

    式中:uii处词向量的特征;fjui对应的权重;m为特征函数的总数量。

    RoBERTa−BiLSTM−MLP−CRF模型如图6所示,其中xt为当前时刻的输入特征。模型从下往上依次是字向量层RoBERTa、融合层、Farward LSTM−Backward LSTM、输出层、MLP和CRF层。该模型输入的是序列化文本,如图中输入层输入的文本“井下打架”。在CRF层输出相应的注释序列,输出序列采用BIO标注方式进行标注。

    图  6  RoBERTa−BiLSTM−MLP−CRF模型
    Figure  6.  RoBERTa-BiLSTM-MLP-CRF model

    采用精确率P、召回率RF1值3个标准来评价RoBERTa−BiLSTM−MLP−CRF模型对井下不安全行为实体识别的效果。

    $$ P = \frac{{{N_{{\mathrm{TP}}}}}}{{{N_{{\mathrm{TP}}}} + {N_{{\mathrm{FP}}}}}} $$ (5)
    $$ R = \frac{{{N_{{\mathrm{TP}}}}}}{{{N_{{\mathrm{TP}}}} + {N_{{\mathrm{FN}}}}}} $$ (6)
    $$ {F_1} = \frac{{2PR}}{{P + R}} $$ (7)

    式中:$ {N}_{{\mathrm{TP}}} $为被预测为正样本的正样本数量;$ {N}_{{\mathrm{FP}}} $为被预测为正样本的负样本数量;$ {N}_{{\mathrm{FN}}} $为被预测为负样本的正样本数量。

    本文数据来源于开放的相关文献及《煤矿安全规程》,其中《煤矿安全规程》中的文本数据为一条条规章制度,满足依存句法的单句中只能存在一个核心成分、每一个词语仅有一个依存对象、核心词不可与其两边的词产生依存关系等条件,且开放的文献文本知识一般高度凝练,故采用依存句法进行关系抽取。王志广等[21]在进行地址领域实体关系抽取时提出联合抽取模型,该方法在一定程度上解决了并列句三元组抽取丰富的问题,但依然比较容易出现模式不匹配的现象,会造成大量知识不能被抽取。针对该问题, 本文将句子的依存关系转换为语法树,分析比对三元组知识的枝条结构,利用树的遍历去搜索整个句子的语法树结构;并将每个并列句视为单独存在的句子,分步对其进行三元组抽取,更深度地抽取语句知识。

    知识融会的主要任务是对知识信息进行有效融合统一,将上述流程中得到的一些缺乏层次性与逻辑性的冗余信息及错误概念剔除,从而提高知识图谱数据库的知识质量[22]。知识融会主要包含实体消歧[23]和共指消解2个任务。实体消歧的任务是解决相同表述指代不同实体的问题。例如,“煤炭运输”在本文中指的是“井下劳作中的煤炭运输”,有的描述则是指“运货火车的煤炭运输”,因此,要联系上下文的语义,明确命名实体的确切含义。共指消解的任务是处理多种描述指代同一实体的问题,例如,“个体因素”“个体原因”“单人因素”均对应的是“个体因素”这一单元实体,在人工撰写的安全报告、事故报告中,用语不规范现象普遍存在。为解决此问题,本文采用余弦距离和Jaccard相关系数相结合的方式计算井下不安全行为实体之间的相似度。通过相似度确定对齐实体是否匹配,从而实现知识融会,得到统一规范的井下不安全行为实体名称。

    $$ {S_{{\mathrm{consine}}}}(A,Q) = \frac{{A Q}}{{||A|| ||Q||}} = \frac{{\displaystyle\sum\limits_{i = 1}^n {{A_i} {Q_i}} }}{{\sqrt {\displaystyle\sum\limits_{i = 1}^n {{A_i^2} \displaystyle\sum\limits_{i = 1}^n {{Q_i^2}} } } }} $$ (8)
    $$ {S_{{\mathrm{Jarccard}}}}(A,Q) = \frac{{|A \cap Q|}}{{|A \cup Q|}} $$ (9)

    式中:Sconsine为余弦相似度;SJarccard为Jarccard相似度;AQ为2个实体的属性字符串。

    任意2个实体之间的语义相似度大小与余弦相似度和Jarccard相似度的大小成正比。井下不安全行为文本知识实体表述见表2,可看出对于“不安全动作”和“不安全行为”2个不同表述的实体,其Jarccard相似度SJarccard为0.43,余弦相似度Sconsine达到0.60,进而得到“不安全动作”和“不安全行为”2个实体实际上为同一概念,应该融合为同一实体。

    表  2  实体相似度计算实例
    Table  2.  Example of entity similarity calculation
    实体1实体2SconsineSJarccard
    粉尘瓦斯爆炸粉尘瓦斯事故0.670.50
    违章指挥违章命令0.670.60
    不安全动作不安全行为0.600.43
    安全培训安全训练0.670.60
    下载: 导出CSV 
    | 显示表格

    井下不安全行为文本数据经过上述流程处理后,从多元异构状态转换为结构化状态。知识存储的任务就是将各类知识存储为“实体−关系−实体”或“实体−关系−属性”的三元组形式。

    本文采用图数据库Neo4j来实现井下不安全行为知识的存储。考虑Neo4j只需插入节点与边就可实现数据的高效存储和查询[24],利用带属性的图模型将实体存储为节点,实体属性存储为节点属性,边和边的属性表示关系与关系属性,标签表示描述知识的概念。基于Neo4j的知识存储方案见表3

    表  3  基于Neo4j的知识存储方案
    Table  3.  Neo4j-based knowledge storage solutions
    类型作用对象范围
    节点描述知识实体井下扒车、穿化纤衣入井等
    标签描述知识概念类违章指挥、违规操作等
    描述实体关系包含关系、关联关系等
    下载: 导出CSV 
    | 显示表格

    本次实验采用TensorFlow1.15.5框架进行模型的搭建,实验中批尺寸为32,学习率为0.001,迭代次数为50。

    实验采用预处理的井下不安全行为文本语料库进行训练。基于该文本数据集,本文预定义了遗忘性行为、粗心性行为、错误性行为、违反性行为、关联因素影响行为、导致后果6种实体类型,识别效果见表4

    表  4  实体类型识别效果
    Table  4.  Entity type identification effect %
    实体类别 P R F1
    遗忘性行为 63.5 67.4 65.4
    粗心性行为 77.4 84.1 80.6
    错误性行为 80.7 83.1 81.9
    违反性行为 80.3 83.7 82.0
    关联因素影响性行为 73.0 76.0 74.5
    导致后果 86.7 90.0 88.3
    下载: 导出CSV 
    | 显示表格

    表4可看出,本文模型对于导致结果、违反性行为、错误性行为及粗心性行为4类实体具有较好的识别效果,其准确率分别为86.7%,80.3%,80.7%,77.4%,对于遗忘性行为及关联因素影响性行为识别效果较差,其准确率分别为63.5%,73.0%。这是因为导致后果、违反性行为、错误性行为及粗心性行为包含的实体表达形式较为固定,而遗忘性行为及关联因素影响性行为包含的实体语义复杂且较长,从而导致识别效果较差。

    为了验证本文模型的有效性,将本文模型与BiLSTM−CRF,BERT−BiLSTM−CRF,RoBERTa−BiLSTM−CRF 模型进行对比,结果见表5

    表  5  模型对比结果
    Table  5.  Model contrast results %
    模型 P R F1
    BiLSTM−CRF 71.2 74.8 73.0
    BERT−BiLSTM−CRF 74.9 79.1 77.0
    RoBERTa−BiLSTM−CRF 75.6 79.1 77.3
    RoBERTa−BiLSTM−MLP−CRF 77.2 80.6 78.9
    下载: 导出CSV 
    | 显示表格

    表5可看出,BERT−BiLSTM−CRF模型的准确率比 BiLSTM−CRF模型提高了3.7%,这表明进行实体识别之前进行词向量化是必要的;RoBERTa−BiLSTM−CRF模型的准确率较BERT−BiLSTM−CRF模型提高了0.7%,这表明RoBERTa模型比BERT模型更适合本次任务;RoBERTa−BiLSTM−MLP−CRF模型的准确率、召回率、F1较RoBERTa−BiLSTM−CRF模型分别提高了1.6%,1.5%,1.6%,这表明添加MLP后能够学习更多公共数据集的特征,用此模型对公共数据集进行训练,对于本次实验有正确的导向作用。

    以井下不安全行为文本中的实体为节点,以实体之间的关系为边,将其存储在Neo4j图数据库中,从而构成煤矿井下不安全行为知识图谱。部分煤矿该图谱井下不安全行为知识图谱如图7所示。可看出该图谱通过“包含”“关联”等关系将不安全行为与影响因素及行为类别连接起来,通过“违规作业”等关系将行为实体与发生部门连接起来,构建了井下不安全行为不同实体间的相关关系,为煤矿井下进行员工管理提供了强有力的支持,进而提高了井下安全管理效率 。

    图  7  部分煤矿井下不安全行为知识图谱
    Figure  7.  Knowledge graph of underground unsafe behavior in some underground coal mines

    1) 提出将句子的依存关系转化为语法树,分析比对三元组知识的枝条结构,利用树的遍历去搜索整个句子的语法树结构,实现煤矿井下知识三元组抽取。

    2) 构建了煤矿井下不安全行为知识图谱,为煤矿井下进行安全管理提供了强有力的支持,进而提高了煤矿井下安全管理效率。

    3) 在构造煤矿井下不安全行为命名实体识别与知识三元组抽取时,由于收集文本数据集只包含部分煤矿井下不安全行为,使得命名实体识别与知识三元组抽取具有局限性且不可避免地会出现缺失和错误。因此,下一步将逐步补充和完善煤矿井下不安全行为知识体系。

  • 图  1   数据集特征与标签相关性热图

    Figure  1.   Heatmap of correlation between features and labels in dataset

    图  2   基于BO算法的超参数优化流程

    Figure  2.   Hyperparameter optimization process based on Bayesian optimization(BO) algorithm

    图  3   基于不同超参数组合的GBDT模型预测值与真实值对比

    Figure  3.   Comparison of predicted and actual values in GBDT models under different hyperparameters combinations

    图  4   基于不同超参数组合的GBDT模型相对误差对比

    Figure  4.   Comparison of relative errors in GBDT models under different hyperparameters combinations

    图  5   不同特征组合下GBDT模型预测值与真实值对比

    Figure  5.   Comparison of predicted and actual values in GBDT models under different feature combinations

    图  6   不同特征组合下GBDT模型的相对误差对比

    Figure  6.   Comparison of relative errors in GBDT models under different feature combinations

    图  7   4种模型的预测数据与真实数据对比

    Figure  7.   Comparison of predicted data and actual values of four models

    图  8   4种模型的相对误差对比

    Figure  8.   Comparison of relative errors of four models

    表  1   回采工作面瓦斯涌出量样本数据

    Table  1   Gas emission sample data of mining working face

    序号 X1/(m3·t−1 X2/m X3/m X4/(°) X5/m X6/m X7/m X8/% X9/t X10/(m3·t−1 X11/m X12/m X13 Y/(m3·min−1
    1 3.90 499 4.3 15 4.3 10 280 0.93 17217 3.10 2.80 52 5.89 2.71
    2 3.16 502 2.7 8 2.7 10 290 0.93 11197 2.80 1.79 48 4.90 2.84
    3 3.40 522 3.4 12 3.4 8 280 0.95 10891 2.15 1.72 14 4.71 3.20
    4 2.96 540 2.8 10 2.8 8 290 0.95 9289 2.44 2.20 20 4.24 3.60
    5 3.68 513 3.5 12 3.5 9 285 0.94 12838 3.28 1.80 19 4.54 3.10
    71 2.46 448 2.3 11 2.3 4.33 159 0.95 1998 2.01 1.69 17 4.65 4.07
    72 3.12 541 2.6 13 2.6 3.82 166 0.94 2207 2.3 1.81 14 4.72 4.92
    73 4.65 630 6.3 12 6.3 2.81 170 0.93 3457 3.34 1.62 19 4.65 8.05
    下载: 导出CSV

    表  2   不同特征选择算法的特征选择结果

    Table  2   Feature selection results of different feature selection algorithms

    特征选择算法 特征 R2 计算时间/s
    X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13
    方差过滤法 × × × × 0.846 0 0.13
    F检验法 × × × × × × 0.849 1 0.13
    互信息法 0.848 3 0.16
    嵌入法 × × × × × × × 0.851 5 0.43
    包装法 × × × × × × × 0.851 5 0.14
    未进行特征选择 0.848 3 0.16
    下载: 导出CSV

    表  3   GBDT模型超参数

    Table  3   Gradient boosting decision tree(GBDT) model hyperparameters

    序号超参数名称含义
    1n_estimators弱学习器最大个数
    2learning_rate学习率
    3max_features划分时考虑的特征数量
    4Subsample子采样比例
    5loss损失函数选择
    6criterion衡量每个决策树节点分裂质量的评价指标
    7max_depth每棵子树的深度
    8min_impurity_split最小基尼不纯度
    下载: 导出CSV

    表  4   超参数寻优算法性能对比

    Table  4   Performance comparison of hyperparameter optimization algorithms

    超参数 网格搜索 随机搜索 基于高斯过程的BO算法 基于TPE的BO算法 基于Optuna的BO算法
    max_features log2 sqrt log2 sqrt sqrt
    loss absolute_error absolute_error absolute_error quantile absolute_error
    criterion friedman_mse squared_error squared_error friedman_mse squared_error
    n_estimators 790 783 208 374 421
    learning_rate 0.01 0.01 0.106 0 0.296 1 0.214 8
    subsample 0.6 0.8 0.562 7 0.311 2 0.473 9
    max_depth 6 5 33 2 42
    min_impurity_split 0 0.888 9 0.059 4 2.525 0 3.350 1
    R2 0.903 4 0.901 6 0.926 6 0.927 2 0.926 6
    寻优时间/min 108.9 4.42 8.63 2.36 4.58
    下载: 导出CSV

    表  5   基于不同超参数组合的GBDT模型相对误差统计

    Table  5   Statistical relative errors in GBDT models under different hyperparameter combinations

    超参数优化算法 最大相对误差/% 平均相对误差/%
    网格搜索算法 11.17 3.15
    随机搜索算法 11.78 3.51
    基于高斯过程的BO算法 11.79 3.53
    基于TPE的BO算法 9.55 2.70
    基于Optuna的BO算法 10.97 3.13
    下载: 导出CSV

    表  6   不同特征组合下GBDT模型的相对误差统计

    Table  6   Statistical relative errors in GBDT models under different feature combinations

    特征选择方法 最大相对误差/% 平均相对误差/%
    方差过滤法 13.48 3.04
    F检验法 8.19 2.77
    互信息法 9.53 4.30
    嵌入法 9.55 2.70
    包装法 11.18 2.79
    包装法+自选 7.18 2.61
    下载: 导出CSV

    表  7   4种模型的相对误差统计

    Table  7   Statistical relative error in four models

    预测模型 最大相对误差% 平均相对误差%
    随机森林模型 12.59 4.05
    支持向量机模型 12.72 4.17
    神经网络模型 8.11 3.84
    GBDT模型 7.18 2.61
    下载: 导出CSV
  • [1] AQ 1018—2006矿井瓦斯涌出量预测方法[S].

    AQ 1018—2006 The predicted method of mine gas emission rate[S].

    [2] 王磊,刘雨,刘志中,等. 基于IABC−LSSVM的瓦斯涌出量预测模型研究[J]. 传感器与微系统,2022,41(2):34-38.

    WANG Lei,LIU Yu,LIU Zhizhong,et al. Research on prediction model for gas emission based on IABC-LSSVM[J]. Transducer and Microsystem Technologies,2022,41(2):34-38.

    [3] 张玉财,王毅,郭凯岩. 基于WOA−LSTM的工作面瓦斯涌出量预测研究[J]. 矿业安全与环保,2023,50(5):50-55.

    ZHANG Yucai,WANG Yi,GUO Kaiyan. Research on prediction of gas emission in working face based on WOA-LSTM[J]. Mining Safety & Environmental Protection,2023,50(5):50-55.

    [4] 荣统瑞,侯恩科,夏冰冰. 基于二次分解和BO−BiLSTM组合模型的采煤工作面瓦斯涌出量预测方法研究[J]. 煤矿安全,2024,55(5):83-92.

    RONG Tongrui,HOU Enke,XIA Bingbing. Research on prediction method of coal mining face gas outflow based on quadratic decomposition and BO-BiLSTM combination model[J]. Safety in Coal Mines,2024,55(5):83-92.

    [5] 徐耀松,白济宁,王雨虹,等. 基于CEEMDAN−DA−GRU的瓦斯涌出量预测模型[J]. 传感技术学报,2023,36(3):441-448.

    XU Yaosong,BAI Jining,WANG Yuhong,et al. Prediction model of gas emission based on CEEMDAN-DA-GRU[J]. Chinese Journal of Sensors and Actuators,2023,36(3):441-448.

    [6] 刘鹏,魏卉子,景江波,等. 基于增强CART回归算法的煤矿瓦斯涌出量预测技术[J]. 煤炭科学技术,2019,47(11):116-122.

    LIU Peng,WEI Huizi,JING Jiangbo,et al. Predicting technology of gas emission quantity in coal mine based on enhanced CART regression algorithm[J]. Coal Science and Technology,2019,47(11):116-122.

    [7] 汪明,王建军. 基于随机森林的回采工作面瓦斯涌出量预测模型[J]. 煤矿安全,2012,43(8):182-185.

    WANG Ming,WANG Jianjun. Gas emission prediction model of stope based on random forests[J]. Safety in Coal Mines,2012,43(8):182-185.

    [8] 张增辉,马文伟. 基于随机森林回归算法的回采工作面瓦斯涌出量预测[J]. 工矿自动化,2023,49(12):33-39.

    ZHANG Zenghui,MA Wenwei. Prediction of gas emission in mining face based on random forest regression algorithm[J]. Journal of Mine Automation,2023,49(12):33-39.

    [9] 成小雨,周爱桃,郭焱振,等. 基于随机森林与支持向量机的回采工作面瓦斯涌出量预测方法[J]. 煤矿安全,2022,53(10):205-211.

    CHENG Xiaoyu,ZHOU Aitao,GUO Yanzhen,et al. Prediction method of gas emission based on random forest and support vector machine[J]. Safety in Coal Mines,2022,53(10):205-211.

    [10] 陈茜,黄连兵. 基于LASSO−LARS的回采工作面瓦斯涌出量预测研究[J]. 煤炭科学技术,2022,50(7):171-176.

    CHEN Qian,HUANG Lianbing. Gas emission prediction from coalface based on least absolute shrinkage and selection operator and least angle regression[J]. Coal Science and Technology,2022,50(7):171-176.

    [11] 徐刚,王磊,金洪伟,等. 因子分析法与BP神经网络耦合模型对回采工作面瓦斯涌出量预测[J]. 西安科技大学学报,2019,39(6):965-971.

    XU Gang,WANG Lei,JIN Hongwei,et al. Gas emission prediction in mining face by factor analysis and BP neural network coupling model[J]. Journal of Xi'an University of Science and Technology,2019,39(6):965-971.

    [12] 吕伏,梁冰,孙维吉,等. 基于主成分回归分析法的回采工作面瓦斯涌出量预测[J]. 煤炭学报,2012,37(1):113-116.

    LYU Fu,LIANG Bing,SUN Weiji,et al. Gas emission quantity prediction of working face based on principal component regression analysis method[J]. Journal of China Coal Society,2012,37(1):113-116.

    [13] 肖鹏,谢行俊,双海清,等. 基于KPCA−CMGANN算法的瓦斯涌出量预测研究[J]. 中国安全科学学报,2020,30(5):39-47.

    XIAO Peng,XIE Xingjun,SHUANG Haiqing,et al. Prediction of gas emission quantity based on KPCA-CMGANN algorithm[J]. China Safety Science Journal,2020,30(5):39-47.

    [14] 王媛彬,李媛媛,韩骞,等. 基于PCA−BO−XGBoost的矿井回采工作面瓦斯涌出量预测[J]. 西安科技大学学报,2022,42(2):371-379.

    WANG Yuanbin,LI Yuanyuan,HAN Qian,et al. Gas emission prediction of the stope in coal mine based on PCA-BO-XGBoost[J]. Journal of Xi'an University of Science and Technology,2022,42(2):371-379.

    [15] 陈巧军,余浩,李艳昌,等. 基于KPCA−LSSVM的回采工作面瓦斯涌出量的预测[J]. 中国安全生产科学技术,2024,20(4):78-84.

    CHEN Qiaojun,YU Hao,LI Yanchang,et al. Prediction of gas emission quantity in mining face based on KPCA-LSSVM[J]. Journal of Safety Science and Technology,2024,20(4):78-84.

    [16] 胡坤,王素珍,韩盛,等. 基于TLBO−LOIRE的回采工作面瓦斯涌出量预测[J]. 应用基础与工程科学学报,2017,25(5):1048-1056.

    HU Kun,WANG Suzhen,HAN Sheng,et al. Gas emission quantity prediction of working face based on TLBO-LOIRE method[J]. Journal of Basic Science and Engineering,2017,25(5):1048-1056.

    [17] 洪林,赫祥林,董晓雷,等. PCA−GA−ELM煤矿瓦斯涌出量预测[J]. 辽宁工程技术大学学报(自然科学版),2015,34(7):779-784. DOI: 10.11956/j.issn.1008-0562.2015.07.003

    HONG Lin,HE Xianglin,DONG Xiaolei,et al. Prediction of mine gas emission based on PCA-GA-ELM[J]. Journal of Liaoning Technical University (Natural Science),2015,34(7):779-784. DOI: 10.11956/j.issn.1008-0562.2015.07.003

    [18] 周志华. 机器学习[M]. 北京:清华大学出版社,2016.

    ZHOU Zhihua. Machine learning[M]. Beijing:Tsinghua University Press,2016.

    [19] 祝元丽,冯向阳,闫庆武,等. 基于GBDT的望奎县农田土壤有机碳主控因子研究[J]. 中国环境科学,2024,44(3):1407-1417. DOI: 10.3969/j.issn.1000-6923.2024.03.023

    ZHU Yuanli,FENG Xiangyang,YAN Qingwu,et al. Spatial distribution and main controlling factors of soil organic carbon under cultivated land based on GBDT model in black soil region of Northeast China[J]. China Environmental Science,2024,44(3):1407-1417. DOI: 10.3969/j.issn.1000-6923.2024.03.023

    [20] 黄桂灶,马同鑫,杨泽锋,等. 基于GBDT算法的弓网动态匹配特性预测模型[J]. 振动与冲击,2024,43(16):26-32,50.

    HUANG Guizao,MA Tongxin,YANG Zefeng,et al. A study on prediction model of dynamic matching characteristics of pantograph-catenary system based on the GBDT algorithm[J]. Journal of Vibration and Shock,2024,43(16):26-32,50.

    [21]

    SNOEK J,LAROCHELLE H,ADAMS R P. Practical Bayesian optimization of machine learning algorithms[C]. Annual Conference on Neural Information Processing Systems,Lake Tahoe,2012:2951-2959.

    [22] 李海霞,宋丹蕾,孔佳宁,等. 传统机器学习模型的超参数优化技术评估[J]. 计算机科学,2024,51(8):242-255. DOI: 10.11896/jsjkx.230600164

    LI Haixia,SONG Danlei,KONG Jianing,et al. Evaluation of hyperparameter optimization techniques for traditional machine learning models[J]. Computer Science,2024,51(8):242-255. DOI: 10.11896/jsjkx.230600164

    [23] 崔榕峰,马海,郭承鹏,等. 基于贝叶斯超参数优化的Gradient Boosting方法的导弹气动特性预测[J]. 航空科学技术,2023,34(7):22-28.

    CUI Rongfeng,MA Hai,GUO Chengpeng,et al. Prediction of missile aerodynamic data based on Gradient Boosting under Bayesian hyperparametric optimization[J]. Aeronautical Science & Technology,2023,34(7):22-28.

  • 期刊类型引用(2)

    1. 江耀森,杨超宇,刘晓蕾. 基于ChatGLM3-6B的煤矿事故知识图谱构建及应用研究. 中国安全生产科学技术. 2024(10): 12-21 . 百度学术
    2. 罗睿. 高速公路交通事故领域知识图谱构建方法. 交通建设与管理. 2024(04): 93-97 . 百度学术

    其他类型引用(4)

图(8)  /  表(7)
计量
  • 文章访问数:  38
  • HTML全文浏览量:  6
  • PDF下载量:  4
  • 被引次数: 6
出版历程
  • 收稿日期:  2024-07-06
  • 修回日期:  2024-12-21
  • 网络出版日期:  2024-12-05
  • 刊出日期:  2024-12-24

目录

/

返回文章
返回