基于有向通路矩阵法的风速传感器最优布置

李秉芮, 王伟, 陈凤梅, 刘娜

李秉芮,王伟,陈凤梅,等.基于有向通路矩阵法的风速传感器最优布置[J].工矿自动化,2021,47(5):52-57.. DOI: 10.13272/j.issn.1671-251x.2020110066
引用本文: 李秉芮,王伟,陈凤梅,等.基于有向通路矩阵法的风速传感器最优布置[J].工矿自动化,2021,47(5):52-57.. DOI: 10.13272/j.issn.1671-251x.2020110066
LI Bingrui, WANG Wei, CHEN Fengmei, LIU Na. Optimal arrangement of wind speed sensor based on directed path matrix method[J]. Journal of Mine Automation, 2021, 47(5): 52-57. DOI: 10.13272/j.issn.1671-251x.2020110066
Citation: LI Bingrui, WANG Wei, CHEN Fengmei, LIU Na. Optimal arrangement of wind speed sensor based on directed path matrix method[J]. Journal of Mine Automation, 2021, 47(5): 52-57. DOI: 10.13272/j.issn.1671-251x.2020110066

基于有向通路矩阵法的风速传感器最优布置

基金项目: 

国家自然科学基金项目(51804185,51804183)

详细信息
  • 中图分类号: TD724

Optimal arrangement of wind speed sensor based on directed path matrix method

  • 摘要: 现有矿井风速传感器布置方法存在确定的传感器分支因风速小于传感器启动风速而无法精准测风,大多数方法需要列出多个矩阵、计算复杂,部分方法选择出的传感器位置不合理等问题。为了实现矿井的无盲区全覆盖风量监测,用最少的风速传感器监测所有巷道的风量变化,采用有向通路矩阵分析传感器分支的覆盖范围,提出了基于有向通路矩阵法的风速传感器最优布置方法。该方法根据通风网络图的风流方向确定唯一的有向通路矩阵,进而确定分支的覆盖范围,选取覆盖范围最大的分支确定风速传感器的位置。实例结果表明:基于有向通路矩阵法的风速传感器最优布置方法可以实现矿井的无盲区全覆盖风量监测,而且传感器数量小于等于独立有向通路的数量;计算分析结果表明:按照该方法布置传感器,存在一个传感器分支有6%的测量误差时,对通风网络影响度最低为0.52,对其他分支的影响度最低为0,并且计算误差随着传感器数量增加而减小;若要使传感器分支误差对通风网络的影响度小于1,则应布置12个以上的风速传感器。
    Abstract: The existing mine wind speed sensor arrangement methods have problems as follows. The determined sensor branch cannot measure the wind speed accurately because the wind speed is smaller than the sensor start wind speed. Most of the methods need to be listed multiple matrices and the calculation is complicated. Moreover, the sensor positions selected by some methods are unreasonable. In order to achieve mine full coverage air volume monitoring without blind area, and to monitor the air volume variation in all roadways with the minimum number of wind speed sensors, the coverage of sensor branches is analyzed by using the directed path matrix, and the optimal arrangement of wind speed sensors based on the directed path matrix method is proposed. This method determines the unique directed path matrix based on the wind flow direction of the ventilation network diagram, determines the coverage of the branches, and selects the branch with the largest coverage to determine the position of the wind speed sensor. The results show that the optimal arrangement of wind speed sensors based on directed path matrix method can achieve mine full coverage air volume monitoring without blind area, and the number of sensors is less than or equal to the number of independent directed paths. Calculation analysis shows that when sensors are arranged according to this method, there is a measurement error of 6% in one sensor branch, the lowest impact on the ventilation network is 0.52, and the lowest impact on other branches is 0. Moreover, the calculation error decreases as the number of sensors increases. If the impact of sensor branch error on the ventilation network is controlled to be less than 1, more than 12 wind speed sensors should be arranged.
  • 知识图谱是结构化的语义网络知识库,其以三元组的形式结构化表示客观世界中存在的概念、实体及其关联关系[1]。在矿山领域,大量的事故信息通常以报告文本的形式存在,结构化程度低,难以实现事故信息的数据挖掘及知识推理。构建矿山事故知识图谱可有效整合报告文本中事故概述、经过及原因中离散的实体及实体间关系,将矿山事故中事故地点、类型、原因等关键因素及其之间的关系以三元组的形式进行存储,提高矿山事故信息的结构化程度,从而实现对事故信息的数据挖掘及知识推理,为矿山风险识别与预防、应急响应与决策支持、事故分析与原因追溯、事故预防措施制订等一系列矿山智能化安全管理系统建设提供数据支撑[2]

    在矿山领域知识图谱构建中,郭晓黎等[3]对煤矿安全事故的种类及类间关系进行分析,建立了煤矿安全事件本体,为构建煤矿安全事件知识图谱提供了理论指导。潘理虎等[4]提出了一种基于七步法、METHONTOLOGY法的本体构建方法,采用知识存储映射算法将煤矿领域本体映射到Neo4j图数据库中,完成了煤矿领域知识图谱的构建。李蓓等[5]基于煤矿灾害事件概念语义分类和煤矿灾害事件描述属性,构建了煤矿灾害事件本体,为构建煤矿灾害知识图谱提供了理论借鉴。曹现刚等[6]采用预训练的Lattice−LSTM模型进行实体识别,采用基于弱监督学习的Bootstrapping方法进行关系抽取,完成了煤矿设备维护知识图谱的构建。王忠强等[7]针对智慧矿山领域的知识要素,提出了基于依存句法分析的实体抽取方法,并根据语句结构特点,设计了依存句法树结构,构建了智慧矿山知识图谱。韩一搏等[8]采用联合编码器将收集到的综采设备数据转换为向量表示,在解码时采用预训练的Lattice−LSTM模型,完成了综采设备实体识别,实现了煤矿综采设备知识图谱构建。现有矿山领域知识图谱构建多采用基于预训练模型的方法,该方法在预训练阶段需要大量人工标注的高质量监督数据[9],而标注高质量的监督数据需要投入大量人力资源,并且效率较低。

    近年来,大语言模型(Large Language Model,LLM)在自然语言理解、学习和表达上取得重大突破,LLM可在少量人工标注的高质量数据下显著提高信息抽取的质量且效率较高,广泛应用于各领域的信息抽取任务[10-12]。M. Agrawal等[13]证明了LLM在没有针对专业领域进行训练的情况下,仍可在零样本和少样本的医疗文本信息抽取任务中表现良好。S. Wadhwa等[14]证明了LLM可高质量地完成少样本新闻信息抽取。冯钧等[15]证明了LLM在未针对水利调度领域文本进行训练的情况下,可在少样本的调度文本中实现高质量信息抽取。因此,将LLM应用于零样本和少样本的矿山事故信息抽取任务,从而构建矿山事故知识图谱是可行的。

    随着LLM的不断发展,Prompt已经成为自然语言处理领域的一种前沿方法,为LLM的使用提供了一种更有效和更具成本效益的方法[16]。然而,LLM结合Prompt的方法会产生灾难性遗忘问题[17],致使模型原始理解上下文能力丧失,难以处理蕴含复杂关系的信息抽取任务。图结构信息可增强模型对实体间复杂关系的理解能力,提高实体抽取和关系抽取的准确率。Li Lei等[18]提出了一种基于上下文感知图结构的图卷积网络来进行事件检测任务,提高了模型理解语义上下文信息的能力。Zhang Qianjin等[19]将实体间的隐式图结构信息融入知识图谱嵌入模型,在关系预测任务上实现了性能提升,增强了模型对上下文的理解能力。因此,本文将图结构信息嵌入到Prompt模板中,提出了图结构Prompt,通过在LLM上嵌入图结构Prompt,提升矿山事故知识图谱的构建质量。首先,对收集到的矿山事故报告进行预处理得到原始语料。其次,按照相关文件要求,使用LLM对矿山事故报告文本中的事故信息进行K−means聚类分析,挖掘事故信息中的实体及实体间关系,完成事故本体构建。然后,将矿山事故报告文本中蕴含的图结构信息嵌入到Prompt模板中,进行矿山事故实体及关系的信息抽取,实例化实体关系三元组。最后,根据抽取到的实体关系三元组构建知识图谱。

    本文采用自顶向下的方式构建矿山事故知识图谱,流程如图1所示。知识图谱涵盖模式层和数据层[20]。模式层在数据层之上,主要通过本体来规范数据层中的一系列事实表达;数据层主要由一系列事实三元组组成,知识以事实为单位进行存储。通过网络爬虫技术,收集煤矿安全生产网公开的矿山事故报告,经过预处理得到原始语料,使用LLM对事故报告中的名词、名词短语及动词进行批量化抽取。在模式层中,实体集由事故报告中的名词、名词短语组成,关系集由事故报告中的动词组成。通过LLM对实体集和关系集中的元素进行聚类分析,同时结合《矿山生产安全事故报告和调查处理办法》《生产安全事故报告和调查处理条例》《煤矿安全生产条例》中要求事故报告应包含的内容,构建矿山事故本体。本体构建完成后,对原始语料进行少量的人工标注,标注数据用于LLM的学习与微调。按照本体中的概念定义设计信息抽取模板。在数据层中,将矿山事故报告中不同文本中实体及实体间关系的图结构信息嵌入到信息抽取模板中,使用LLM进行实体及关系抽取,得到矿山事故文本中的实体关系三元组,完成数据的实例化。

    图  1  矿山事故知识图谱构建流程
    Figure  1.  Construction process of mine accident knowledge graph

    模式层是知识图谱的概念模型和逻辑基础,可借助本体定义的规则和公理对数据层进行规范约束[3]。对矿山事故报告文本分析可知,该报告文本中蕴含丰富的实体对象和关系。使用LLM并结合煤矿生产文件、煤矿设备文件和安全防治文件对矿山事故报告文本进行了实体关系挖掘、聚类和总结归纳。

    矿山事故报告按照结构可划分为事故概述、事故原因、事故单位情况和事故发生经过。实体关系挖掘过程如图2所示。首先,本文利用LLM按事故报告结构分批获取矿山事故报告文本中的所有名词及名词短语,同时,提示LLM采用粗粒度分词标准。例如,事故原因文本为“事故直接原因:工作面放炮崩歪单体液压支柱,工人在空顶情况下违章打设支柱,冒落的岩石砸倒支柱,支柱砸伤其头部致死。”,采用粗粒度分词标准后的分词结果为“事故/直接原因/:/工作面放炮崩歪单体液压支柱/,/工人/在/空顶情况下/违章打设支柱/,/冒落的岩石/砸倒支柱/,/支柱/砸伤其头部致死/。”。采用粗粒度分词标准可以保留事故原因的语义完整性,有助于模型理解上下文,减少分词歧义。其次,获取事故报告中的所有名词及名词短语后,通过LLM对所有名词及名词短语进行K−means聚类。如将具体名词“单体液压支柱”“风镐”“液压枪”等聚类在一起,并进一步映射为“设备”标签;将“运输事故”“顶板事故”“水害事故”等聚类在一起,并映射为“事故类型”标签;将“2号采煤工作面”“硐室”“106号—115号液压支架间”等聚类在一起,并映射为“地点”标签;将“2023年6月8日6时许”“60万t/a”“未打设临时支护”等分类为其他标签。得到聚类数据后,将同标签的名词及名词短语放入同一集合中,采用Dice系数对聚类后的每个标签集合进行相似性度量,即两两比较集合中文本元素的重复度。Dice系数越接近1,表示2个集合越相似。如果相似,则重复上述步骤进行进一步聚类,否则根据集合中的元素并结合事故文本特征进行标签映射。最后,得到事故核心、机构、事故原因、设备、事件、人员和证照7类实体。

    图  2  实体关系挖掘过程
    Figure  2.  Entity-relationship mining process

    在对语料中的关系进行挖掘时,首先,利用LLM按事故报告结构分批获取矿山事故报告文本中的所有动词。然后使用LLM对获取到的所有动词进行K−means聚类,同样使用Dice系数对聚类后的动词集合进行相似性度量,结合行业实际情况进行调整。最后获得位于、处于、取得、对应、具备、参与、采取、导致、发生、操作10种关系。

    此外,在对训练数据中少量样本进行数据标注时,为提高人工标注的效率,提升实体辨识度,对前文所述7类实体中的事故核心、机构、事件和证照4类实体进行了细分,细分后的实体及实体间关系如图3所示。将事故核心实体细分为时间、地点、事故类型、死亡人数、受伤人数和经济损失,将机构实体细分为煤矿名称、地址、生产能力和生产状态,将事件实体细分为业务名称、救援行动和现象,将证照实体细分为证照编号和证照有效期。最终得到矿山事故领域实体及实体间关系。

    图  3  实体及实体间关系
    Figure  3.  Entities and relationships between entities

    在数据层中,知识以“实体−关系−实体”或“实体−属性−属性值”的三元组形式存在。根据模式层中对实体及实体间关系的定义,对事故文本进行信息抽取,构建矿山事故知识图谱的数据层。

    根据矿山事故报告文本中实体及实体间关系结构,可将图结构信息分为3类。事故概述文本和事故原因文本的图结构信息相同。以事故概述文本的图结构信息(图4)为例,按照矿山事故本体中实体及实体间关系,该文本中XX煤矿为起始节点,其余节点为终止节点。起始节点与各个终止节点之间存在发生、导致等不同的关系,并且节点之间只有一对多的图结构信息,在对事故概述文本进行信息抽取时,可定义该部分文本的Prompt模板,将各节点之间的关系和图结构信息嵌入Prompt模板。

    图  4  事故概述文本的图结构信息
    Figure  4.  Graph structure information of accident overview text

    事故单位情况文本的图结构信息如图5所示。按照矿山事故本体中实体及实体间关系,该文本中XX煤矿为起始节点,证号为中间节点,证照有效期为终止节点。起始节点和终止节点通过中间节点进行连接,各个节点之间存在取得、对应等不同的关系,并且起始节点与中间节点之间只存在一对多的关系,中间节点和终止节点之间存在一对一的关系,在对事故单位证照情况进行信息抽取时,可固定该部分文本的Prompt模板,将各节点之间的关系和图结构信息嵌入Prompt模板。

    图  5  事故单位情况文本的图结构信息
    Figure  5.  Graph structure information of accident unit situation text

    事故发生经过文本的图结构信息如图6所示。在该文本中,事件是按照时间顺序发生的,各个时间点中都有人员参与,且参与其中的人员都在进行相应活动,如操作设备、进行业务施工、采取救援措施等。因此,按照矿山事故本体中实体及实体间关系,将该文本中时间点作为起始节点,人员作为中间节点,具体业务名称作为终止节点。起始节点和终止节点通过中间节点进行连接,各个节点之间存在参与、操作、对应等不同的关系,并且起始节点与中间节点之间存在一对多的关系,中间节点与终止节点之间存在一对一和一对多的关系,在对事故发生经过文本进行信息抽取时,可固定该部分文本的Prompt模板,将事故发生经过文本中各节点之间关系和图结构信息嵌入Prompt模板。

    图  6  事故发生经过文本的图结构信息
    Figure  6.  Graph structure information of accident occurrence text

    根据矿山事故报告文本各部分内容的差异性,对事故概述、事故原因、事故单位情况和事故发生经过进行信息抽取时采用不同的Prompt模板。信息抽取过程如图7(a)所示,在Prompt模板中嵌入原始语料中实体之间的图结构信息,将嵌入图结构信息的Prompt模板和待抽取文本输入LLM,使用人工标注的训练集数据指导LLM进行矿山事故中实体及实体间复杂关系的学习,对模型参数进行微调,使LLM在当前对话中保持对该任务的信息抽取能力。具体信息抽取案例如图7(b)所示,模板中的triples表示当前待抽取文本中所包含的三元组,target表示嵌入图结构信息后的文本,Subject_X标签表示起始节点,Object_X标签表示终止节点,target_text表示待抽取文本的内容,ner2ent表示待抽取文本中所包含的实体节点与标签的对应关系。

    图  7  信息抽取过程及案例
    Figure  7.  Information extraction process and case example

    在信息抽取时,按矿山事故报告结构对原始语料进行划分,将嵌入图结构信息的Prompt模板和待抽取文本输入LLM进行批量化信息抽取,最终LLM输出抽取到的实体关系三元组。

    为验证本文方法的可行性和有效性,开展实验验证。用于实验验证的LLM包括GPT−3.5,GLM_4,ERNIE−4.0及Qwen−7B−chat,将LLM的信息抽取结果与通用信息抽取(Universal Information Extraction,UIE)模型[21]的信息抽取结果进行对比。

    在矿山事故信息抽取任务中,目前尚无公开的数据集,因此需要自行构建数据集。本文收集的数据来源于煤矿安全生产网,通过网络爬虫获取原始语料文本,选取7类矿山事故,共包含2 532个矿山事故报告文本,人工标注253个矿山事故报告文本,将标注后的数据按照7∶3的比例划分为训练集和测试集。

    通过网络爬虫获取到的原始矿山事故报告文本存在实体关系和专业词汇复杂及实体嵌套等问题,使得本体构建变得困难,且直接对原始语料进行信息抽取并不能得到高质量的抽取结果。此外,收集到的原始矿山事故报告存在诸多冗余信息和格式混乱数据,无法将其直接用于信息抽取任务。为改善上述问题,需要对数据进行预处理,以提高语料库的构建质量。

    根据国家矿山安全监察局《关于印发〈矿山安全生产事故报告和调查处理办法〉的通知》(矿安〔2023〕7 号)第十条要求,对采集到的原始矿山事故报告进行预处理,如图8所示。首先,对原始语料进行数据清洗,修正格式混乱的数据,同时对报告内容进行精简,删除矿山事故报告中的冗余信息,去除事故责任追究与处理建议等与本体构建无关信息,保留事故发生单位概况,事故发生的时间、地点、事故类别,事故的简要经过,事故已经造成伤亡人数、涉险人数、失踪人数和初步估计的直接经济损失等必要内容。然后,进行实体对齐,例如针对XX市XX区XX煤业有限公司(以下简称“XX煤业”),统一使用简称之后的煤矿名称。最后,统一矿山事故报告结构,将矿山事故报告保留的内容进一步精炼为事故概述、事故原因、事故单位情况和事故发生经过4个部分内容。

    图  8  数据预处理流程
    Figure  8.  Data preprocessing process

    分别采用GPT−3.5,GLM_4,ERNIE−4.0及Qwen−7B−chat这4个LLM与UIE模型对矿山事故报告中的实体和关系进行抽取,结果见表1

    表  1  UIE模型与LLM在信息抽取任务上的对比结果
    Table  1.  Comparison results of Universal Information Extraction(UIE) model and Large Language Model(LLM) in information extraction tasks
    模型 实体抽取 关系抽取
    精确率 召回率 F1 精确率 召回率 F1
    UIE 0.894 0.827 0.859 0.713 0.627 0.667
    GPT−3.5 0.893 0.847 0.870 0.887 0.904 0.895
    GLM_4 0.956 0.850 0.901 0.910 0.885 0.898
    ERNIE−4.0 0.752 0.836 0.792 0.788 0.817 0.802
    Qwen−7B−chat 0.883 0.855 0.869 0.862 0.881 0.871
    下载: 导出CSV 
    | 显示表格

    表1可知:在实体抽取任务中,UIE模型表现稳定但整体略差于LLM;在关系抽取任务中,LLM表现显著优于UIE模型。这是因为UIE模型依赖于预定义的结构化模式,难以灵活处理多样化的关系类型;而LLM凭借强大的上下文理解能力、生成式框架及对大规模预训练数据的深度学习能力,能够更好地捕捉语义关联和隐含关系,此外,LLM在处理动态和多样化任务时表现出更强的泛化能力,能够更准确地构建实体之间的关系,从而在实体抽取和关系抽取任务中取得更好的效果。

    在GPT−3.5,GLM_4,ERNIE−4.0和Qwen−7B−chat上开展嵌入图结构Prompt和未嵌入图结构Prompt的对比实验,分别对测试集数据进行实体抽取和关系抽取,结果见表2

    表  2  LLM嵌入图结构Prompt前后在信息抽取任务上的对比结果
    Table  2.  Comparison results of information extraction tasks before and after LLM embedded with Graph-Structured Prompt
    模型 实体抽取 关系抽取
    精确率 召回率 F1 精确率 召回率 F1
    GPT−3.5 未嵌入图结构Prompt 0.775 0.835 0.804 0.803 0.791 0.797
    嵌入图结构Prompt 0.893 0.847 0.870 0.887 0.904 0.895
    GLM_4 未嵌入图结构Prompt 0.831 0.679 0.793 0.785 0.794 0.789
    嵌入图结构Prompt 0.956 0.850 0.901 0.910 0.885 0.898
    ERNIE−4.0 未嵌入图结构Prompt 0.673 0.731 0.701 0.695 0.683 0.689
    嵌入图结构Prompt 0.752 0.836 0.792 0.788 0.817 0.802
    Qwen−7B−chat 未嵌入图结构Prompt 0.761 0.748 0.754 0.792 0.731 0.760
    嵌入图结构Prompt 0.883 0.855 0.869 0.862 0.881 0.871
    下载: 导出CSV 
    | 显示表格

    表2可知,在LLM中嵌入图结构Prompt后的信息抽取结果明显优于未嵌入图结构Prompt。未嵌入图结构Prompt的LLM虽能捕捉一定的语义信息,但在精确率和召回率上存在局限性,尤其在处理复杂图结构数据时,难以充分利用节点和边之间的关系信息。而嵌入图结构Prompt可帮助LLM更好地理解图中节点和边之间的关系,并将图结构信息保留至低维空间表征中,提升捕捉实体间复杂关系的能力。

    利用嵌入图结构Prompt的LLM从矿山事故报告中抽取事故概述、事故原因、事故单位情况和事故发生经过所包含的实体及实体间关系信息,生成矿山事故知识图谱三元组,并将其存储在Neo4j图数据库中,从而构建矿山事故知识图谱。

    使用Cypher语句可对Neo4j图数据库中的矿山事故进行查询。以顶板事故为例,查询某一煤矿发生的顶板事故,该顶板事故的事故概述、事故原因、事故单位情况和事故发生经过所涵盖的实体关系三元组构成的知识图谱如图9所示。

    图  9  顶板事故知识图谱
    Figure  9.  Knowledge graph of roof accident

    1) 通过LLM对矿山事故报告文本中的名词、名词短语及动词进行K−means聚类分析,使用Dice系数对聚类后的集合进行相似性度量,并结合煤矿领域相关规范性文件,可快速、高效地完成煤矿领域事故本体构建,生成矿山事故知识图谱三元组,实现矿山事故信息的结构化表示。

    2) 在LLM上嵌入图结构Prompt,提升了LLM实体抽取和关系抽取的准确率,从而在少量的标注数据下快速实现矿山事故知识图谱的高质量构建。

    3) 由于数据来源于煤矿安全生产网的矿山事故报告,文本结构相对固定,文本类型相对单一。在未来的研究中,可提高数据源的多样性,进一步完善矿山事故知识图谱,探索在矿山事故原因分析、救援策略决断、防范措施制订和事故报告自动生成等场景下的应用。

  • 期刊类型引用(4)

    1. 阎馨,全洪燕,屠乃威. 基于改进FWA的配电网优化重构方法研究. 控制工程. 2024(05): 833-841 . 百度学术
    2. 朱墨,张德正. 基于模糊聚类法的分布式发电集群划分策略. 电工技术. 2023(18): 26-28+31 . 百度学术
    3. 杨铭,刘建辉. 基于遗传蚁群算法配电网重构. 现代电子技术. 2020(02): 128-132 . 百度学术
    4. 宋学伟,刘天羽,刘玉瑶. 考虑环保性与自治性的主动配电网能量优化管理. 电工电气. 2019(06): 58-62 . 百度学术

    其他类型引用(6)

计量
  • 文章访问数:  120
  • HTML全文浏览量:  11
  • PDF下载量:  11
  • 被引次数: 10
出版历程
  • 刊出日期:  2021-05-19

目录

/

返回文章
返回