韩一搏 董立红 叶鸥

韩一搏,董立红,叶鸥. 基于联合编码的煤矿综采设备知识图谱构建[J]. 工矿自动化,2024,50(4):84-93.  doi: 10.13272/j.issn.1671-251x.2023100009
HAN Yibo, DONG Lihong, YE Ou. Construction of knowledge graph for fully mechanized coal mining equipment based on joint coding[J]. Journal of Mine Automation,2024,50(4):84-93.  doi: 10.13272/j.issn.1671-251x.2023100009
doi: 10.13272/j.issn.1671-251x.2023100009
基金项目: 中国博士后科学基金资助项目(2020M673446)。


  • 中图分类号: TD67

Construction of knowledge graph for fully mechanized coal mining equipment based on joint coding

  • 摘要: 利用知识图谱技术进行数据管理可实现对煤矿综采设备的有效表示,以便获取具有深度挖掘价值的信息。煤矿综采设备数据不均衡、某些类别设备实体较少等问题影响实体识别精度。针对上述问题,提出了一种基于联合编码的煤矿综采设备知识图谱构建方法。首先构建综采设备本体模型,确定概念及关系。然后设计实体识别模型:利用Token Embedding、Position Embedding、Sentence Embedding和Task Embedding 4层Embedding结构与Transformer−Encoder进行煤矿综采设备数据编码,提取词语间的依赖关系及上下文信息特征;引入中文汉字字库,利用Word2vec模型进行编码,提取字形间的语义规则,解决煤矿综采设备数据中生僻字问题;使用GRU模型对综采设备数据和字库编码后的字符向量进行联合编码,融合向量特征;利用Lattice−LSTM模型进行字符解码,获取实体识别结果。最后利用图数据库技术,将抽取的知识以图谱的形式进行存储和组织,完成知识图谱构建。在煤矿综采设备数据集上进行实验验证,结果表明该方法对综采设备实体的识别准确率较现有方法提高了1.26%以上,在一定程度上缓解了在少量样本情况下构建煤矿综采设备知识图谱时因数据较少导致的精度不足问题。


  • 图  1  煤矿综采设备本体模型

    Figure  1.  Ontology model of fully mechanized coal mining equipment

    图  2  煤矿综采设备知识图谱构建流程

    Figure  2.  Construction process of knowledge graph for fully mechanized coal mining equipment

    图  3  Transformer−Encoder单元结构

    Figure  3.  Transformer−Encoder unit structure

    图  4  Skip−Gram模型结构

    Figure  4.  Skip−Gram model structure

    图  5  Lattice−LSTM模型网络结构

    Figure  5.  Network structure of Lattice−LSTM model

    图  6  部分设备知识图谱

    Figure  6.  Knowledge graph of some equipment

    图  7  消融实验中不同模型准确率

    Figure  7.  Precision of different models in ablation experiment

    图  8  消融实验中不同模型召回率

    Figure  8.  Recall of different models in ablation experiment

    图  9  消融实验中不同模型F1值

    Figure  9.  F1 value of different models in ablation experiment

    图  10  对比实验中不同模型准确率

    Figure  10.  Precision of different models in comparison experiment

    图  11  对比实验中不同模型召回率

    Figure  11.  Recall of different models in comparison experiment

    图  12  对比实验中不同模型F1值

    Figure  12.  F1 value of different models in comparison experiment

    表  1  jieba分词结果

    Table  1.   Jieba word segmentation result

    表  2  部分语料标注序列

    Table  2.   Partial dimension sequence

    字符 标注结果 字符 标注结果 字符 标注结果
    O O O
    O O O
    O O O
    表  3  知识存储映射方案

    Table  3.   Knowledge storage mapping scheme

    类别 作用 对象范围
    标签 描述煤矿综采
    节点 描述煤矿综采
    描述知识关系 包含关系、相交关系、跟随关系等
    属性 描述实体属性 生产厂家、生产编号、出厂日期等
    表  4  数据集规模

    Table  4.   Dataset size

    数据集 数据类型 训练集 测试集
    分句数2 316条463条
    字符数72 468个12 296个
    字库字符数6 768个
    总计分句数2 316条463条
    字符数79 236个12 296个
    表  5  模型参数

    Table  5.   Model parameters

    参数 Encoder GRU Lattice−LSTM Word2vec
    768 300
    Learning Rate 0.010 0.015 0.015 0.010
    Hidden size 768 768 768
    Dropout 0.1 0.1 0.1
    Batch Size 32 32 32 32
    表  6  消融实验结果

    Table  6.   Results of ablation experiment %

    模型 P R F1
    本文模型 91.46 90.12 90.83
    Encoder−Lattice−LSTM模型 89.19 90.65 89.91
    Encoder−Word2vec−GRU−BiLSTM模型 86.14 85.66 85.90
    Word2vec−Lattice−LSTM模型 83.44 79.62 81.48
    表  7  对比实验结果

    Table  7.   Results of comparison experiment %

    模型 P R F1
    本文模型 91.46 90.12 90.83
    ALBERT−BiGRU−CRF模型 90.20 89.23 89.71
    BERT−BiLSTM−CRF+BERT−CRF模型 86.14 85.66 85.11
    Lattice−LSTM模型 79.58 79.16 79.37
    BiLSTM−CRF模型 76.60 71.27 73.83
  • 加载中
图(12) / 表(7)
  • 文章访问数:  127
  • HTML全文浏览量:  31
  • PDF下载量:  15
  • 被引次数: 0
  • 收稿日期:  2023-10-03
  • 修回日期:  2024-04-19
  • 网络出版日期:  2024-05-10


