基于Q-learning模型的智能化放顶煤控制策略

(1.河南理工大学电气工程与自动化学院，河南焦作 454000；2.河南理工大学能源科学与工程学院，河南焦作 454000；3.东南大学自动化学院，江苏南京 210096)

摘要：传统的综放工作面放顶煤控制存在顶煤采出率低、出煤含矸率高等问题，而现有智能决策方法又存在建模困难、学习样本难以获取等障碍。针对上述问题，在液压支架放煤口动作决策过程中引入强化学习思想，提出一种基于Q-learning模型的智能化放顶煤控制策略。以最大化放煤效益为主要目标，结合顶煤放出体实时状态特征及顶煤动态赋存状态，采用基于Q-learning的放顶煤动态决策算法，在线生成多放煤口实时动作策略，优化多放煤口群组协同放煤过程，合理平衡顶煤采出率、出煤含矸率的关系。仿真和对比分析结果表明，该控制策略的顶煤平均采出率为91.24%，比传统“见矸关窗”的放煤方法提高约15.8%；平均全局奖赏值为685，比传统放煤方法提高约11.2%。该控制策略可显著减少混矸、夹矸等现象对放煤过程的影响，提高顶煤放出效益，减少煤炭资源浪费。

关键词：放顶煤；煤矸分离；强化学习；智能放煤控制；群组放煤； Q-learning模型

0 引言

我国厚煤层及特厚煤层储量丰富，所占比例超过40%。综合机械化放顶煤开采(简称综放开采)具有开采效率高、适应性强等显著优势,目前已成为厚煤层及特厚煤层的主要开采方式[1]。在综放开采过程中，顶煤采出率低、出煤含矸率高是普遍存在的难题[2]。目前，综放开采大多采用人工单架放煤。放煤操作人员主要依据“见矸关窗”原则，通过观察顶煤放落过程中放出体的状态判断是否应当关闭放煤口。这种单架放煤方式无法把握工作面全局信息，且放煤操作人员的经验参差不齐，不可避免地导致放煤过程中出现欠放、过放等状况[3]。而在单架次放煤过程中，仅放煤口上方一定范围内的顶煤发生移动，易形成放出漏斗。若2个放出漏斗区相邻，则会形成三角煤区域，导致该区域顶煤无法放出，造成极大的资源浪费[4-5]。

从工作面全局信息考虑，将单一放煤口提升为多放煤口群组放煤，并依靠先进的信息技术实现智能放煤，可以有效避免人为因素对放煤效益的影响，减少顶煤漏斗区，提高顶煤采出率。同时，多放煤口群组智能(自动化)放煤有利于提高煤岩分界线的直线度，降低放煤口控制难度和出煤含矸率。因此，在放煤过程中，如何通过现代信息技术，沿着煤岩分界面最大程度地将顶煤放出，提升顶煤采出率，降低含矸率，是目前综放开采的研究热点[6-8]。

目前，国内已经就自动化、智能化的放煤方式展开了初步的试验探索。2006年，兖矿集团有限公司将综放开采技术应用到澳大利亚澳思达矿并探索了基于时间控制与人工干预相协调的自动化放煤方式[9-11]。2014年，黄陵矿业集团有限公司一号煤矿1001工作面实现了智能化无人开采[12-13]。文献[14-15]研究了一种基于记忆放煤时序控制的智能放煤模式，将人工放煤参数作为记忆样本，通过基于神经网络的自适应算法，针对不同情况下的放煤参数自动调整最佳放煤时间，以达到时序放煤控制的目的。文献[16]结合果蝇优化算法与径向基函数(Radial Basis Function，RBF)来预测放煤时间，使得放煤时间随煤层赋存条件自动调整。文献[17]通过对多传感器采集信号进行特征提取，以放煤特征范例库作为经验指导，对比二者相似度作出预警或控制，提出了以传感器感知控制为主的自动化记忆放煤控制方法。上述方法对综放工作面放顶煤智能控制理论的发展起到了积极的促进作用，但煤矸智能识别技术尚未取得突破进展，因此,放顶煤智能控制理论的发展在一定程度上受到了限制。

在放煤过程中，通过结合顶煤放出体实时状态特征与顶煤动态赋存特征，对放顶煤控制动作进行在线调整，设计基于智能决策机制的智能化放煤控制系统，使煤矸在顶煤放出过程中最大程度地分离，能有效提高顶煤采出率,降低出煤含矸率[18]。同时，通过对放煤口群组放煤的协同控制，将区域范围内的顶煤同时放出，减少顶煤相邻放出漏斗间的残留三角煤损失，可以提高顶煤采出率。

在上述参考文献的基础上，本文从智能决策控制角度出发，以提高顶煤采出率、降低出煤含矸率为目的，以合理调节群组放煤口控制动作为手段，提出了一种基于Q-learning模型的智能化放顶煤控制策略。针对多变量多约束条件下的复杂放煤工艺，生成群组放煤过程中各放煤口开闭实时控制策略，可优化多放煤口群组放煤过程，有效减少放煤过程中形成的放出漏斗，进一步提高放煤质量。

1 基于Q-learning模型的智能化放顶煤控制策略

1.1 放顶煤动态过程的强化学习机制

放顶煤过程中，每个放顶煤支架可以看作是一个智能体，而放煤口的决策过程则是一个非线性动态系统的多级决策过程，决策结果受当前顶煤放出体状态与顶煤赋存状态的共同影响。传统人工控制或自动化控制的放煤方式，其决策机制往往取决于顶煤放出体瞬时状态，不能很好地把握顶煤赋存状态，因此,无法应对放顶煤过程中遇到的混矸、夹矸等现象。

将基于动态规划思想的强化学习与放顶煤过程相结合，把一个完整的放煤过程离散成若干个相互关联的步，每一步关联前后2个状态。每个状态下的决策结果都将对整个放顶煤过程的总体收益产生影响，系统决策的依据不再仅仅来源于系统当前时刻的状态。强化学习通过把握工作面全局状态信息，学习环境状态与执行动作之间的映射关系，使执行动作从环境中收获最大的累积奖赏值。基于强化学习的智能放顶煤动态调节机制如图1所示。

图1 基于强化学习的智能放顶煤动态调节机制

Fig.1 Dynamic adjustment mechanism of intelligent coal caving based on reinforcement learning

在放顶煤过程中，放出体及顶煤赋存状态用s表示，且s∈S，S为状态空间。放煤口控制动作用a表示，且a∈An，A为动作空间，n为放煤口数量。根据系统当前状态s与放煤口动作空间A，结合奖赏函数可得智能体单步奖赏值r(s),且r∈R，R为动作回报值空间。放顶煤智能体选择执行最优动作a，系统收获最大单步奖赏值r(s,a)，环境接收该动作后系统状态从s转移至s′。单步执行的放顶煤控制动作不仅会影响到单步奖赏值，而且会影响系统下一时刻的状态及最终累积奖赏。因此，智能放顶煤控制系统在每个状态下都会选择能够实现全局最优的放顶煤控制动作。

Q-learning是一种用于求解马尔科夫过程最优决策的免模型强化学习算法[19-20]。Q-learning算法任务中，通过迭代学习状态-动作值函数Qπ(s,a)的最优形式来求解状态s条件下执行动作a的最优策略π。Qπ(s,a)的迭代学习机制为

(1)

式中：k为采样次数；α为学习率,α∈(0,1)；γ为折扣因子,γ∈(0,1)；a′为状态s′下的期望最优动作。

在保证算法收敛的情况下，为合理增加采样次数，本文在Qπ(s,a)的学习过程中引入了“探索”与“利用”均衡策略ε-greedy算法，实现动作选择。算法表达式为

(2)

式中：ε∈(0,1)；|A(s)|为状态s条件下可选的动作数量；A*为候选动作的最优值。

(3)

由式(2)可知，在状态s条件下,策略π(a|s)由概率值表示，其中候选动作是最优动作时a=A*，用于“利用”；而候选动作不是已知最优动作时a≠A*，用于“探索”；最后依据π(a|s)的概率最大值选择动作。

根据式(1)所述的迭代机制和式(2)所示的策略选择算法，经过若干次学习后，Qπ(s,a)和π(a|s)将同步收敛至最优值Qπ*(s,a)和π*(a|s)，此时有

(4)

采用基于Q-learning算法的智能放煤决策，结合放出体及顶煤赋存状态s、奖赏函数r(s,a)，以最大化期望累积奖赏Qπ(s,a)为主要目标，在线调整最优放顶煤控制动作A*，可优化多放煤口群组协同放煤过程，合理平衡顶煤采出率、出煤含矸率的关系。

1.2 放顶煤过程的基本要素及MDP建模

在综放开采过程中，当前状态下放顶煤的决策过程只与前一个状态相关，这是典型的马尔科夫决策过程(Markov Decision Process，MDP)。根据Q-learning算法对放顶煤过程建立MDP模型，MDP模型可用公式Μ width=11,height=14,dpi=110 {S;A;R}表示，需要确定3个核心要素：放煤口的状态空间S、动作空间A、动作回报值空间R。

(1) 状态空间S的物理含义及表示方法。在综放开采放顶煤过程中，指示放顶煤质量的主要参数为顶煤放出体中的煤矸含量。假设顶煤放出体单位体积中煤炭和矸石的数量分别为m和n，则通过放煤口的瞬时煤含量ω可表示为

(5)

放煤口的状态s可用ω表示。通过煤矸含量表示系统状态，系统整体状态空间可表示为S={si}={ωi}，i∈{1,2,…,N}，N为离散状态数量。

(2) 放煤口动作空间A的确立。根据智能体所处的环境和状态，从可选动作集合A中选择具有最大Q值的动作去执行。在综放现场放顶煤决策过程中，依据当前状态和控制策略决定放煤口应该打开还是关闭。为此，本文指定放煤口动作空间为

A={a1,a2}

(6)

式中：a1表示放煤口需要执行打开动作；a2表示放煤口需要执行关闭动作。

(3) 动作回报值空间R的量化方法。顶煤无法有效采出会造成巨大的资源浪费，出煤含矸率高会大幅提高运输成本和后期处理费用，因此,在智能放煤系给统中必须合理设计奖赏函数。结合某一时刻顶煤瞬时放出体单位体积中煤、矸数量mi,ni，奖赏函数设定为

(7)

式中Rm，Rn分别为顶煤放落过程中同等单位体积下的煤、矸奖赏值，为标量正值。

从式(7)可看出，在某一状态si下，煤含量ωi越大，执行放煤口打开动作获得的奖赏越多。随着顶煤放出体中矸石含量不断增加，若打开放煤口获得负奖赏，会导致期望累积奖赏不断减少，执行放煤口关闭动作更优。

结合上述参数，通过顶煤放出体中煤矸含量获取当前状态si，由决策算法给出决策动作Ai，动作执行后系统收获瞬时奖赏值ri，同时系统状态转移至si+1。上述过程不断循环，直至放顶煤过程结束。MDP模型下放顶煤过程的状态转移过程如图2所示。

图2 MDP模型下状态转移过程

Fig.2 State transition process under MDP model

1.3 基于Q-learning的放顶煤动态决策算法

算法步骤如下：

(1) 初始化Q(s,a)，∀s∈S，∀a∈An，给定参数α、γ。

(2) 生成初始随机策略π(s,a)。

(3) 对全部放顶煤训练过程重复执行下列操作：

给定起始状态s=s0，根据ε-greedy策略在状态s下选择动作a。对单一放顶煤训练过程重复执行下列操作：① 根据ε-greedy策略,在状态s下选择放顶煤控制动作a得到奖赏r和下一状态s′。②a′=π(s′)。③ 对状态-动作值函数方程进行增量式更新：Q(s,a)←Q(s,a)+α[r(s,a)+④s=s′，a=a′。直到s是最终状态，跳出单一放顶煤训练过程。

当所有的Q(s,a)收敛时，跳出全部放顶煤训练过程。

(4) 输出智能放顶煤控制策略：

2 仿真分析

2.1 放顶煤过程仿真平台

实际的综放开采工作面环境复杂，获取现场数据十分困难。智能放顶煤动态决策算法需要针对大量煤层数据进行训练以提高泛化能力。为满足需求，在DICE开源代码[21]基础上，对基于离散元方法的放顶煤过程进行Matlab仿真。仿真平台包括5个顶煤放出口，由煤炭、矸石、岩石3种材料作为顶板的构成成分，放煤动作包含开闭2种离散动作。在强化学习框架下，基于离散元的放煤过程的Matlab仿真结果如图3所示，x轴指示5个放煤口的宽度，每个放煤口宽度为1 m，y轴指示顶煤厚度。

(a) 初始时刻

(b) 放煤过程

图3 基于离散元的放煤过程的Matlab仿真结果

Fig.3 Matlab simulation results of coal caving process based on discrete element

2.2 顶板环境生成过程

设定在仿真环境中煤炭、矸石、岩石颗粒在自身重力作用下达到密实状态，模拟初始条件：颗粒初始速度为0，只受重力加速度g的作用，墙体速度与加速度为0。此外，颗粒四周及墙体作为仿真平台的外边界，其速度和加速度固定为0。模型材料颗粒力学参数见表1。

表1 模型材料颗粒力学参数

Table 1 Mechanical parameters of model material particle

设置顶煤下部为煤炭，中部为基本顶，上部为直接顶，各分层粒子数总体占比见表2。

表2 各分层粒子数总体占比

Table 2 Overall proportion of particles in each layer

训练过程中，系统状态转移应尽可能多覆盖整个状态空间，从而提高算法的普适性。各层粒子分布设定如图4(a)所示：煤层中煤炭粒子、矸石粒子比例为1∶1，位置服从随机分布；直接顶中煤炭粒子占比为6%，各层分布密度与其到煤岩分界线的距离成反比；基本顶只含有岩石粒子。测试过程中，各层的粒子遵循综放工作面的实际情况。各层粒子分布设定如图4(b)所示：煤层中矸石粒子占比为8%，位置服从随机分布；直接顶中煤炭粒子占比为6%，各层分布密度与其到煤岩分界线的距离成反比；基本顶只含有岩石粒子。

2.3 放顶煤过程仿真分析

对于单个离散元粒子，煤炭粒子奖赏值Rm取为1，矸石粒子奖赏值Rn取为-3。根据放煤口煤矸流中煤炭含量，对放煤口状态空间进行离散化定义，见表3。

(a) 训练用模拟环境

(b) 测试用模拟环境

图4 煤层生成环境

Fig.4 Coal seam generation environment

表3 放煤口状态空间

Table 3 State space of coal outlet

结合MDP参数，对放顶煤动态决策算法展开训练。在给定的训练环境下，至各状态所对应的状态-动作值函数Q(s,a)收敛时，结束训练。训练结束后，随机生成4组测试用模拟环境，针对一组5个放煤口放煤过程进行煤矸分离测试，测试结果如图5所示。

(a) 第1组

(b) 第2组

(d) 第4组

图5 煤矸分离测试结果

Fig.5 Coal and gangue separation test results

顶煤采出率Wc和含矸率ρ的计算公式分别为

(8)

(9)

式中：QC为顶煤放出体中煤颗粒个数；QD为放煤区间内纯煤颗粒个数;QG为顶煤放出体中矸石颗粒个数；QA为放出体中全部颗粒个数。

根据式(8)和式(9)计算测试样本采出率与含矸率，结果见表4。

表4 测试样本采出率与含矸率

Table 4 Recovery ratio and gangue proportion of test sample

在放煤初期，可以放出纯顶煤，放出体完全由煤炭组成。随着放煤过程进行，直接顶逐渐破碎，顶煤放出体中出现混矸，但此时仍有一部分顶煤没有放出。为减少或避免直接顶矸石混入，目前的主要方法是提前关闭放煤口，但造成了大量的资源浪费。在放出适量的直接顶矸石后再关闭放煤口，则可以获得更大的煤炭采出率。

结合顶板环境生成过程，煤炭层中煤炭粒子占比为92%，而表4中采出率普遍高于92%，可知，在上述测试结果中，顶板煤炭层粒子已经全部采出。通过本文决策算法平衡采出率与含矸率，根据顶煤动态赋存特征，在直接顶破碎的情况下将含有部分矸石的顶煤适量放出，会导致出煤含矸率ρ偏高，但提高了顶煤采出率。

结合图5所示放煤测试结果可知，放顶煤过程结束后，顶板上方的煤炭已无法进行有效开采，若继续放煤势必会导致矸石含量快速上升。以全局收益最大化为约束的智能放煤决策通过生成合理的放煤口控制策略，实现了放顶煤过程中煤炭与矸石的有效分离。

2.4 对比分析

将智能化放顶煤控制策略与传统以“见矸关窗”为准则的放煤方式进行对比，对比要素为含矸率、采出率、全局奖赏值。其中，全局奖赏值RA用来衡量放煤总体效益，计算方式为

RA=QCRm-QGRn

(10)

采用传统放煤方式时，在现场很难通过观察做到非常精准的“见矸关窗”。为了更真实地模拟现场放煤过程，结合Rm和Rn值，在放煤过程中将放煤口煤矸流中矸石的比例为25%作为终止放煤的依据。

随机生成10组测试用煤层环境，在每组环境下进行仿真，2种方式的出煤含矸率与顶煤采出率如图6所示。

(a) 顶煤采出率

(b) 出煤含矸率

图6 采出率与含矸率对比

Fig.6 Comparison of coal recovery ratio and gangue proportion

对比2种放煤方式下顶煤采出率和含矸率，分析得出如下结论：

(1) 采用智能化控制策略放煤，顶煤平均采出率为91.24%，下部纯煤层完全放出。此外，在直接顶破碎的情况下，可以将含有少量直接顶矸石的顶煤适量放出，顶煤采出率得到进一步提高。而以“见矸关窗”方式放煤时，为了避免夹矸、混矸情况，放煤口在顶煤层完全放出前关闭，放煤方式较为保守，顶煤平均采出率仅为78.81%，造成了部分资源的浪费。

(2) 采用智能化控制策略放煤，出煤平均含矸率为6.92%；以“见矸关窗”方式放煤时，出煤平均含矸率为5.81%。含矸率ρ受QG和QA共同影响。由于直接顶破碎，使得矸石颗粒上升速率ΔQG大于放出体颗粒上升速率ΔQA，含矸率ρ逐渐升高。因此，采用智能化控制策略放煤时出煤含矸率略高于“见矸关窗”放煤方式。

根据放顶煤原理，在提高顶煤采出率的同时会造成出煤含矸量增加，单独分析采出率或含矸率都存在一定的片面性。为协调二者关系，引入全局奖赏值RA对放顶煤质量进行评估，全局奖赏值对比结果如图7所示。

图7 全局奖赏值对比

Fig.7 Comparison of global reward value

由图7可知，智能化控制策略的平均全局奖赏值为685，“见矸关窗”方式的平均全局奖赏值为616。可见，应用智能化控制策略放煤所带来的全局收益更高，顶煤采出率提高约15.8%，放煤效益提高约11.2%。

3 结论

(1) 针对传统综放工作面放顶煤控制存在的顶煤采出率低、出煤含矸率高等问题，提出了基于Q-learning模型的智能化放顶煤控制策略。该控制策略兼顾工作面全局状态信息，以最大化放煤效益为主要目标，通过学习顶煤动态赋存与液压支架群组放煤控制的映射关系，合理平衡顶煤采出率与含矸率关系，显著减少了混矸、夹矸等现象对放顶煤开采的影响，在提高煤炭资源采出率的同时，提高了放顶煤开采效益，减少了煤炭资源的浪费。

(2) 仿真和对比分析结果表明，智能化控制策略的顶煤平均采出率为91.24%，比传统“见矸关窗”的放煤方式提高约15.8%；智能化控制策略的平均全局奖赏值为685，比传统放煤方式提高约11.2%。

(3) 本文算法仍然存在出煤含矸率不理想的问题。在后续研究中，将引入多智能体优化决策模型和方法，寻求顶煤采出率和出煤含矸率最佳匹配条件下的液压支架动作过程的全局最优。

参考文献（References）：

[1] 王国法,庞义辉,马英.特厚煤层大采高综放自动化开采技术与装备[J].煤炭工程,2018,50(1):1-6.

WANG Guofa,PANG Yihui,MA Ying. Automated mining technology and equipment for fully-mechanized caving mining with large mining height in extra-thick coal seam[J].Coal Engineering,2018,50(1):1-6.

[2] 邓维元,康天合.特厚煤层综放开采放煤工艺优化研究[J].煤炭工程,2017,49(4):52-55.

DENG Weiyuan,KANG Tianhe.Coal drawing process optimization of fully-mechanized top-coal caving in extra-thick coal seam[J].Coal Engineering,2017,49(4):52-55.

[3] 于斌,徐刚,黄志增,等.特厚煤层智能化综放开采理论与关键技术架构[J].煤炭学报,2019,44(1):42-53.

YU Bin,XU Gang,HUANG Zhizeng,et al.Theory and its key technology framework of intelligentized fully-mechanized caving mining in extremely thick coal seam[J].Journal of China Coal Society,2019,44(1):42-53.

[4] 谢广祥,黄金桥.顶煤放出规律计算机可视化仿真[J].煤炭学报,2002,27(3):264-267.

XIE Guangxiang,HUANG Jinqiao.Computer visualized simulation on coal drawing law[J].Journal of China Coal Society,2002,27(3):264-267.

[5] 王家臣,魏立科,张锦旺,等.综放开采顶煤放出规律三维数值模拟[J].煤炭学报,2013,38(11):1905-1911.

WANG Jiachen,WEI Like,ZHANG Jinwang,et al.3-D numerical simulation on the top-coal movement law under caving mining technique[J].Journal of China Coal Society,2013,38(11):1905-1911.

[6] 王家臣,张锦旺.综放开采顶煤放出规律的BBR研究[J].煤炭学报,2015,40(3):487-493.

WANG Jiachen,ZHANG Jinwang.BBR study of top-coal drawing law in longwall top-coal caving mining[J].Journal of China Coal Society,2015,40(3):487-493.

[7] 袁亮.煤炭精准开采科学构想[J].煤炭学报,2017,42(1):1-7.

YUAN Liang.Scientific conception of precision coal mining[J].Journal of China Coal Society,2017,42(1):1-7.

[8] 袁亮.面向煤炭精准开采的物联网架构及关键技术[J].工矿自动化,2017,43(10):1-7.

YUAN Liang.Framework and key technologies of Internet of things for precision coal mining[J].Industry and Mine Automation,2017,43(10):1-7.

[9] 王国法,王虹,任怀伟,等.智慧煤矿2025情景目标和发展路径[J].煤炭学报,2018,43(2):295-305.

WANG Guofa,WANG Hong,REN Huaiwei,et al.2025 scenarios and development path of intelligent coal mine[J].Journal of China Coal Society,2018,43(2):295-305.

[10] 王国法,张金虎.煤矿高效开采技术与装备的最新发展[J].煤矿开采,2018,23(1):1-4.

WANG Guofa,ZHANG Jinhu.Recent development of coal mine highly effective mining technology and equipment[J].Coal Mining Technology,2018,23(1):1-4.

[11] 符如康,张长友,张豪.煤矿综采综掘设备智能感知与控制技术研究及展望[J].煤炭科学技术,2017,45(9):72-78.

FU Rukang,ZHANG Changyou,ZHANG Hao.Discovery and outlook on intelligent sensing and control technology of mine fully-mechanized mining and driving equipment[J]. Coal Science and Technology,2017,45(9):72-78.

[12] 王国法,刘峰,孟祥军,等.煤矿智能化(初级阶段)研究与实践[J].煤炭科学技术,2019,47(8):1-36.

WANG Guofa,LIU Feng,MENG Xiangjun,et al.Research and practice on intelligent coal mine construction(primary stage)[J].Coal Science and Technology,2019,47(8):1-36.

[13] 范京道.煤矿智能化开采技术创新与发展[J].煤炭科学技术,2017,45(9):65-71.

FAN Jingdao.Innovation and development of intelligent mining technology in coal mine[J]. Coal Science and Technology,2017,45(9):65-71.

[14] 马英.综放工作面自动化放顶煤系统研究[J].煤炭科学技术,2013,41(11):22-24.

MA Ying.Study on automatic top coal caving system in fully-mechanized coal caving face[J].Coal Science and Technology,2013,41(11):22-24.

[15] 马英.基于记忆放煤时序控制的智能放煤模式研究[J].煤矿机电,2015(2):1-5.

MA Ying.Research on intelligent coal caving system based on memory coal caving sequential control[J].Colliery Mechanical & Electrical Technology,2015(2):1-5.

[16] 王国法,庞义辉.特厚煤层大采高综采综放适应性评价和技术原理[J].煤炭学报,2018,43(1):33-42.

WANG Guofa,PANG Yihui.Full-mechanized coal mining and caving mining method evaluation and key technology for thick coal seam[J].Journal of China Coal Society,2018,43(1):33-42.

[17] 崔志芳,牛剑峰.自动化记忆放煤控制研究[J].工矿自动化,2019,45(3):99-102.

CUI Zhifang,NIU Jianfeng.Research on automatic memory coal caving control[J]. Industry and Mine Automation,2019,45(3):99-102.

[18] 李化敏,王伸,李东印,等.煤矿采场智能岩层控制原理及方法[J].煤炭学报,2019,44(1):127-140.

LI Huamin,WANG Shen,LI Dongyin,et al.Intelligent ground control at longwall working face[J].Journal of China Coal Society,2019,44(1):127-140.

[19] KIUMARSI B, VAMVOUDAKIS K,MODARES H,et al. Optimal and autonomous control using reinforcement learning: a survey[J]. IEEE Transactions on Neural Networks and Learning Systems,2018,29(6):2042-2062.

[20] LIU Y J, TANG L,TONG S,et al. Reinforcement learning design-based adaptive tracking control with less learning parameters for nonlinear discrete-time MIMO systems[J]. IEEE Transactions on Neural Networks and Learning Systems,2015,26(1):165-176.

[21] ZHAO Gaofeng.High performance computing and the discrete element model: Opportunity and challenge[M]. Oxford: Elsevier,2015.

Intelligent control strategy for top coal caving based on Q-learning model

(1.School of Electrical Engineering and Automation,Henan Polytechnic University,Jiaozuo 454000,China;2.School of Energy Science and Engineering,Henan Polytechnic University,Jiaozuo 454000,China;3.School of Automation,Southeast University,Nanjing 210096,China)

Abstract：Traditional top coal caving control on fully mechanized caving face has problems of low top coal recovery ratio and high gangue proportion,and existing intelligent decision-making methods have obstacles such as difficulty in modeling and obtaining learning samples. In view of above problems,the idea of reinforcement learning was introduced into the decision-making process of coal outlet of hydraulic support,and an intelligent control strategy for top coal caving based on Q-learning model was proposed.With the main goal of maximizing the benefits of coal caving combined with real-time state characteristics of top coal release and dynamic occurrence status of top coal,a dynamic decision-making algorithm based on Q-learning is used to generate real-time action strategy of multiple coal outlets online, and optimize cooperative coal caving process of multiple coal outlets,reasonably balance relationship between top coal recovery ratio and gangue proportion. The results of simulation and comparative analysis show that the average recovery ratio of top coal of the proposed control strategy is 91.24%,which is about 15.8% higher than that of the traditional coal caving method; the average global reward value is 685,which is about 11.2% higher than that of the traditional coal caving method. The proposed control strategy can significantly reduce the impact of coal and gangue mixed phenomena on the coal caving process,improve efficiency of top coal discharge,and reduce waste of coal resources.

Key words:top coal caving; coal and gangue seperation; reinforcement learning; intelligent coal discharge control; group top coal caving; Q-learning model

收稿日期：2019-11-01；修回日期：2019-12-20；责任编辑：胡娴。

基金项目：国家重点研发计划项目(2018YFC0604502)；河南省高等学校重点科研项目(19A413008,17A480007)；河南省科技项目(192102210100,172102210270)。

作者简介：李庆元(1995-)，男，河南商丘人，硕士研究生，主要研究方向为强化学习、信息处理与网络控制，E-mail：717513202@qq.com。

通信作者：杨艺(1980-)，男，湖北利川人，讲师，博士，硕士研究生导师，主要研究方向为深度学习、强化学习和智能控制，E-mail：yangyi@hpu.edu.cn。

引用格式：李庆元，杨艺，李化敏，等.基于Q-learning模型的智能化放顶煤控制策略[J].工矿自动化，2020,46(1)：72-79.

LI Qingyuan,YANG Yi,LI Huamin,et al.Intelligent control strategy for top coal caving based on Q-learning model[J].Industry and Mine Automation，2020,46(1)：72-79.