矿山信息物理融合系统多节点智联策略

马洋锦1,付茂全2,许志1,李敬兆1

(1.安徽理工大学 电气与信息工程学院,安徽 淮南 232001;2.大同煤矿集团有限责任公司 安全监管五人小组管理部,山西 大同 037000)

摘要针对当前矿山信息物理融合系统(CPS)的通信节点无法与基于不同无线通信协议的感知节点实现智能连接的问题,在通信节点上集成多种通信模块构成多模态通信节点,提出了一种基于渐进式神经网络的矿山CPS多节点智联策略。采用渐进式神经网络控制多模态通信节点准确切换工作模态,实现异构无线通信网络自主建立;利用异步优势动作评价算法对渐进式神经网络进行深度训练,提高渐进式神经网络的收敛速度和训练精度。实验结果表明,该策略实现了多模态通信节点与多类感知节点之间的准确、可靠通信。

关键词智慧矿山;矿山信息物理融合系统;多模态通信节点;渐进式神经网络;异步优势动作评价算法

0 引言

矿山信息物理融合系统(Cyber-Physical System,CPS)在智慧矿山建设中具有重要作用[1-2]。随着无线通信技术的不断发展,矿山CPS不断引入基于不同无线通信协议的感知节点,导致矿山CPS感知节点种类繁多,且无线通信网络错综复杂[3-4]。矿山CPS通信节点无法与现有的多类感知节点实现智能连接,难以满足当前矿山CPS建设需要。

目前,建立矿山CPS多节点连接的主要方案是在通信节点上集成多种通信模块构成多模态通信节点,并采用周期性任务调度的方式依次唤醒各通信模块,不断切换多模态通信节点工作模态,实现与多类感知节点的分时通信[5-6]。但该方案无法实现通信节点与感知节点的精准配对,通信的时效性和连续性均得不到保障。渐进式神经网络作为一种深度神经网络,具有对已有数据进行学习,提取和记忆特征信息的能力[7]。因此,本文提出了一种基于渐进式神经网络的矿山CPS多节点智联策略,应用渐进式神经网络控制多模态通信节点精准切换工作模态,实现与多感知节点的通信智能连接,达到异构无线通信网络自主建立的效果。

多模态通信节点工作模态的控制与感知节点通信方式、节点间距离等因素密切相关,相关因素考虑越全面,渐进式神经网络训练时任务越细致,对多模态通信节点工作模态的控制准确率越高。但随着训练任务的增加,渐进式神经网络列数增多,网络结构渐趋复杂,若直接使用数据集对渐进式神经网络进行训练,极易出现因梯度不稳定导致的网络收敛速度慢、训练精度低等问题[8]。针对该问题,本文应用异步优势动作评价(Asynchronous Advantage Actor-Critic,A3C)算法[9-12]异步生成训练数据,打破训练数据之间的时间关联,提高神经网络训练的稳定性,改善渐进式神经网络的训练效果。

1 矿山CPS无线通信网络架构

目前矿山CPS中对物理信息进行采集的无线感知节点的通信方式主要有LoRa,ZigBee,Bluetooth,RFID等[13]。多模态通信节点作为矿山CPS通信接口,具备与不同类型感知节点进行实时数据交互的能力。基于多模态通信节点的矿山CPS无线通信网络架构如图1所示。

多模态通信节点硬件部分主要以ARM嵌入式微处理器为核心,集成了LoRa,ZigBee,RFID,Bluetooth等无线通信模块及工业以太网接口。多模态通信节点根据无线感知节点所处位置的环境状况、通信状态、干扰情况等切换工作模态,智能选择通信方式,从而与多种无线感知节点进行信息交互,再通过以太网接口将采集的信息传输至地面监控中心。

图1 矿山CPS无线通信网络架构

Fig.1 Wireless communication network architecture of mine CPS

2 基于渐进式神经网络的多节点智联策略

渐进式神经网络从一个单一的神经网络开始训练,随着训练任务的增多,渐进式神经网络逐步地增加网络列数,并将之前训练的神经网络与当前训练的神经网络相连接,如图2所示。I为渐进式神经网络输入;O(i)为第i(i=1,2,…,kk为渐进式神经网络列数)列神经网络输出;为渐进式神经网络第j(j=1,2,…,nn为渐进式神经网络隐藏层数)层、第i列神经元输出。

图2 渐进式神经网络结构

Fig.2 Progressive neural network structure

由于渐进式神经网络结构不断扩大,在对之前训练的数据进行融合时,为保持神经网络维度的统一,需要对数据进行M处理,即采用一个单隐藏层的多层感知机(Multilayer Perceptron,MLP)(图3)对前列神经网络的数据进行融合处理,并以一定的维度输出到下一列神经网络中。

MLP中输入神经元个数N=i-1,输出神经元个数P与经M处理后的下一列渐进式神经网络的维度相等。MLP隐藏层输出为

图3 MLP结构

Fig.3 MLP structure

F(AX+B)=sigmoid(AX+B)

(1)

式中:X为输入信息矩阵;AX的权重矩阵;B为MLP的偏置矩阵。

渐进式神经网络第j层、第k列神经元输出为

(2)

式中:G(·)为隐藏层ReLU激活函数;为渐进式神经网络第j层、第k列神经元的输入权值;为渐进式神经网络第j-1层、第i列神经元对第j层、第k列神经元的传递权值;为渐进式神经网络第j层、第k列神经元的输出偏置。

基于渐进式神经网络的多节点智联策略如图4所示。多模态通信节点的输入信息矩阵X经归一化处理后得到矩阵YY作为渐进式神经网络的输入,经处理后转化为输出信息矩阵Q;对输出信息矩阵Q进行L处理(采用变换矩阵与Q相乘)后得到控制矩阵I;多模态通信节点根据控制矩阵I所包含的控制信息进入相应的工作模态,并对通信参数进行调节,完成与感知节点的数据交互。

图4 多节点智联策略

Fig.4 Intelligent multi-node communication strategy

多模态通信节点的输入信息矩阵Xz组状态向量x1,x2,…,xz构成,这些状态向量由工业以太环网上的其他通信节点和已建立通信连接的感知节点提供。为消除输入信息矩阵X量纲的影响,对X进行归一化处理,得

(3)

式中为状态向量xf(f=1,2,…,z)中第g(g=1,2,…,mm为状态向量维数)维元素。

渐进式神经网络的每一列神经网络都会对网络的输入进行运算,但不同列的神经网络由于是在不同任务下训练出来的,所以对输入信息特征进行提取后,通过运算得到的输出不同。对于任意一列神经网络,若输入数据与训练样本的特征匹配,经运算后产生的输出值很大,否则输出值很小。若输入数据与训练样本特征不匹配的神经网络列数较多,则产生的多个小输出值会累积并对多模态通信节点造成干扰,必须滤除该类神经网络的输出。同时,需要保留输入数据与训练样本特征相匹配的神经网络的输出。因此,对渐进式神经网络的输出矩阵Q进行L处理:

(4)

(5)

式中:为输出矩阵Qj行、第i列元素;li为变换矩阵的第i个元素。

3 基于A3C算法的渐进式神经网络训练

A3C算法框架如图5所示,执行者根据当前任务状态和策略函数决定下一步动作,使任务的状态发生变化。值函数根据动作执行后任务状态的变化情况对执行者的当前策略函数给出评价,执行者根据该评价对策略函数的参数进行修改,同时值函数根据评价与任务当前状态返回值对自身参数进行调整,从而对执行者作出更精确的评价。

图5 A3C算法框架

Fig.5 A3C algorithm framework

以值函数表示任务当前状态返回值与执行动作后值函数的联合数学期望:

V(s,θv)=E[r+γV(s′,θv)]

(6)

式中:V(s,θv)为值函数,s为执行者当前状态,θv为值函数的特征参数;r为任务当前状态返回值;γ为执行动作后的值函数权值;s′为执行者执行动作后的状态。

为了判断在状态s下执行动作c的可行性程度,定义优势函数:

A(s,c,θ,θv)=r+γV(s′,θv)-V(s,θv)

(7)

式中θ为策略函数的特征参数。

若选择执行动作c后得到的实际效果比期望效果好,即r+γV(s′,θv)>E[r+γV(s′,θv)],则A(s,c,θ,θv)为正,否则A(s,c,θ,θv)为负。

在A3C算法中,通过策略函数计算出所有起始任务的当前状态返回值,再由策略梯度定理[14-15]得到策略函数的梯度:

(8)

式中p(c|s,θ)为状态s下策略函数更新后执行动作c的概率。

根据策略函数的梯度对策略函数的特征参数θ进行优化,使执行者选择执行的动作能够获得更好的反馈。

值函数的梯度为

Gθv=∂(r-V(s,θv))2/∂θv

(9)

根据值函数的梯度对值函数的特征参数θv进行优化,使执行者当前状态更接近实际值,从而提高参数训练的准确度。

4 实验验证

为验证采用A3C算法训练渐进式神经网络的有效性,进行了基于Darknet深度学习框架的渐进式神经网络训练实验。实验环境配置:Intel i9-9900K处理器、NVIDIA GTX 1080Ti显卡、32 GB内存、Windows 10操作系统、Python 3.7开发工具。实验超参数设置:初始学习率为0.001,权值衰减系数为0.005,动量参数为0.9。采集1 200组感知节点的状态数据,每组数据包括感知节点三维坐标、距感知节点300 m以内的其他感知节点数量、感知节点所采集的数据类型、感知节点与多模态通信节点之间的距离。通过对状态数据叠加高斯噪声实现数据扩充,得到7 200组数据,用来构成渐进式神经网络的训练数据集。在相同的软硬件平台上,使用同一训练数据集,采用A3C算法前后渐进式神经网络训练精度如图6所示。可看出采用A3C算法训练渐进式神经网络具有收敛速度快、训练精度高等优势。

为验证渐进式神经网络对多模态通信节点的控制效果,在某矿进行了多模态通信节点与感知节点的通信实验,节点布置见表1。

图6 渐进式神经网络训练精度曲线

Fig.6 Training accuracy curves of progressive neural network

表1 节点布置

Table 1 Nodes layout

节点类型安装方式数量多模态通信节点固定安装,随机分布150固定感知节点固定安装,随机分布150移动感知节点随机移动150

当多模态通信节点工作模态与感知节点通信方式匹配,且多模态通信节点与感知节点通信时的丢包率小于5%时,则视为模态转换成功。多模态通信节点工作模态转换准确率为

(10)

式中εt表示第t(t=1,2,…,ββ为多模态通信节点数)个多模态通信节点是否成功转换工作模态,若转换成功,则εt=1,否则εt=0。

先将所有感知节点设置为LoRa通信方式,同时设置初始工作模态分别为ZigBee,RFID,Bluetooth的多模态通信节点各50个。实验开始30 min后记录所有多模态通信节点的工作模态,并利用式(10)计算LoRa模态转换准确率。同理可得ZigBee,RFID,Bluetooth模态转换准确率,见表2。

从表2可看出,在渐进式神经网络控制下,多模态通信节点从随机初始工作模态转换为LoRa,ZigBee,RFID,Bluetooth目标工作模态的准确率分别高于80%,84%,86%,93%,表明渐进式神经网络对多模态通信节点工作模态的控制准确度高,可使多模态通信节点的工作模态根据感知节点通信方式可靠转变。

5 结语

提出了一种基于渐进式神经网络的矿山CPS多节点智联策略。采用渐进式神经网络控制多模态通信节点,实现了多模态通信节点工作模态与感知节点通信方式的自主匹配,提升了矿山CPS通信节点的自主组网能力;以A3C算法优化渐进式神经网络的训练过程,加快了网络收敛速度,提高了训练精度。该策略不足之处在于渐进式神经网络占用了多模态通信节点一定的存储资源和计算资源,使得通信节点的数据处理能力受到制约。因此,简化渐进式神经网络的结构并减少网络计算次数,提升多模态通信节点数据处理效率,将是今后研究的方向。

表2 多模态通信节点模态转换准确率

Table 2 Mode conversion accuracy of multi-mode communication nodes

初始工作模态目标工作模态准确率/%ZigBeeRFIDBluetoothLoRa868280LoRaRFIDBluetoothZigBee929084LoRaZigBeeBluetoothRFID919286LoRaZigBeeRFIDBluetooth949394

参考文献(References):

[1] 姚建铨,丁恩杰,张申,等.感知矿山物联网愿景与发展趋势[J].工矿自动化,2016,42(9):1-5.

YAO Jianquan,DING Enjie,ZHANG Shen,et al.Prospect of perception mine Internet of things and its development trend[J].Industry and Mine Automation,2016,42(9):1-5.

[2] 陈晓晶,何敏.智慧矿山建设架构体系及其关键技术[J].煤炭科学技术,2018,46(2):208-212.

CHEN Xiaojing,HE Min.Framework system and key technology of intelligent mine construction[J].Coal Science and Technology,2018,46(2):208-212.

[3] 李敬兆,宫华强.煤矿信息物理系统场景感知自配置与优化策略研究[J].煤炭科学技术,2019,47(4):20-25.

LI Jingzhao,GONG Huaqiang.Research on scene perception self-configuration and optimization strategy of cyber-physical system for coal mine[J].Coal Science and Technology,2019,47(4):20-25.

[4] 孙彦景,华钢,窦林名,等.矿山工程信息物理系统研究及挑战[J].煤炭科学技术,2018,46(2):103-111.

SUN Yanjing,HUA Gang,DOU Linming,et al.Study and challenges on cyber-physical system of mine engineering[J].Coal Science and Technology,2018,46(2):103-111.

[5] 王宽.矿用融合网关设计及关键技术研究[D].徐州:中国矿业大学,2019.

WANG Kuan.Design and key technologies of fusion gateway for mining industry[D].Xuzhou:China University of Mining and Technology,2019.

[6] 袁亚洲.矿下异构无线网络资源优化关键技术研究[D].上海:上海交通大学,2016.

YUAN Yazhou.Research on key technologies for optimizing resource of heterogeneous wireless networks[D].Shanghai:Shanghai Jiao Tong University,2016.

[7] 陈海霞,徐珑婷,杨震.渐进式神经网络多维说话人信息识别技术[J].南京邮电大学学报(自然科学版),2019,39(1):45-51.

CHEN Haixia,XU Longting,YANG Zhen.Multi-dimensional peaker information recognition based on progressive neural network[J].Journal of Nanjing University of Posts and Telecommunications(Natural Science Edition),2019,39(1):45-51.

[8] 陈建廷,向阳.深度神经网络训练中梯度不稳定现象研究综述[J].软件学报,2018,29(7):2071-2091.

CHEN Jianting,XIANG Yang.Survey of unstable gradients in deep neural network training[J].Journal of Software,2018,29(7):2071-2091.

[9] 胡刚.基于强化学习的无地图搜索导航[D].哈尔滨:哈尔滨工业大学,2019.

HU Gang.Mapless search navigation based on reinforcement learning[D].Harbin:Harbin Institute of Technology,2019.

[10] 孙歧峰,任辉,段友祥.基于异步优势执行器评价器学习的自适应PID控制设计[J].信息与控制,2019,48(3):323-328.

SUN Qifeng,REN Hui,DUAN Youxiang.The adaptive PID control design based on asynchronous advantage actor-critic learning[J].Information and Control,2019,48(3):323-328.

[11] HELMA C,CRAMER T,KRAMER S,et al.Data mining and machine learning techniques for the identification of mutagenicity inducing substructures and structure activity relationships of noncongeneric compounds[J].Journal of Chemical Information and Computer Sciences,2004,44(4):1402-1411.

[12] CHEN Miaojiang,WANG Tian,OTA K,et al.Intelligent resource allocation management for vehicles network: an A3C learning approach[J].Computer Communications,2020,151:485-494.

[13] 霍振龙.LoRa技术在矿井无线通信中的应用分析[J].工矿自动化,2017,43(10):34-37.

HUO Zhenlong.Application analysis of LoRa technology in mine wireless communication[J].Industry and Mine Automation,2017,43(10):34-37.

[14] 张淼,张琦,刘文韬,等.一种基于策略梯度强化学习的列车智能控制方法[J].铁道学报,2020,42(1):69-75.

ZHANG Miao,ZHANG Qi,LIU Wentao,et al.A policy-based reinforcement learning algorithm for intelligent train control[J].Journal of the China Railway Society,2020,42(1):69-75.

[15] WANG Lixin,WANG Maolin,YUE Ting.A fuzzy deterministic policy gradient algorithm for pursuit-evasion differential games[J].Neurocomputing,2019,362:106-117.

Intelligent multi-node communication strategy of mine cyber-physical system

MA Yangjin1, FU Maoquan2, XU Zhi1, LI Jingzhao1

(1.School of Electrical and Information Engineering, Anhui University of Science and Technology, Huainan 232001, China; 2.Safety Supervision Five-Person Group Management Department, Datong Coal Mine Group Co., Ltd., Datong 037000, China)

AbstractAiming at problem that communication nodes and perception nodes based on different wireless communication protocols could not achieve intelligent connection in current mine cyber-physical system(CPS), a multi-mode communication node was constructed by integrating multiple communication modules on the communication node, and an intelligent multi-node communication strategy of mine CPS based on progressive neural network was proposed.The progressive neural network is used to control the multi-mode communication node to switch working mode accurately and realize independent establishment of heterogeneous wireless communication network.The asynchronous advantage actor-critic algorithm is used to perform deep training on the progressive neural network to improve convergence speed and training accuracy of the progressive neural network.The experimental results show that the strategy can realize accurate and reliable communication between multi-mode communication nodes and multi-class perception nodes.

Key words:smart mine; mine cyber-physical system; multi-mode communication node; progressive neural network; asynchronous advantage actor-critic algorithm

中图分类号:TD67

文献标志码:A

收稿日期:2020-01-06;修回日期:2020-03-21;责任编辑:盛男。

基金项目:国家自然科学基金项目(51874010);北京理工大学高精尖机器人开放性研究项目(2018IRS16);物联网关键技术研究创新团队项目(201950ZX003)。

作者简介:马洋锦(1996-),男,回族,安徽安庆人,硕士研究生,主要研究方向为物联网应用、电力系统及其自动化,E-mail:3022498344@qq.com。

通信作者:李敬兆(1964-),男,安徽淮南人,教授,博士研究生导师,博士,主要研究方向为物联网工程技术、嵌入式系统,E-mail:jzhli@aust.edu.cn。

引用格式:马洋锦,付茂全,许志,等.矿山信息物理融合系统多节点智联策略[J].工矿自动化,2020,46(3):38-42.

MA Yangjin,FU Maoquan,XU Zhi,et al.Intelligent multi-node communication strategy of mine cyber-physical system[J].Industry and Mine Automation,2020,46(3):38-42.

文章编号1671-251X(2020)03-0038-06

DOI:10.13272/j.issn.1671-251x.17544