资源描述:
第 51 卷第 7 期 2020 年 7 月 Safety in Coal Mines Vol.51No.7 Jul. 2020 Gradient Boosting 算法在典型浅埋煤层 液压支架选型中的应用 张杰 1, 孙 遥 1, 谢党虎2, 蔡维山1, 刘清洲1, 龙晶晶3 (1.西安科技大学 能源学院, 陕西 西安 710054; 2.陕西涌鑫矿业有限责任公司, 陕西 榆林 719407; 3.甘肃厂坝有色金属有限责任公司, 甘肃 陇南 742500) 摘要 针对目前工作面液压支架阻力确定方法的不足, 提出了 1 种新的预测方法, 采用改进后 的逻辑斯提算法 (LR) 来优化梯度提升回归 (GBRT) 模型, 以此来预测液压支架阻力。 在 GBRT 中 加入学习速率来限制子模型的学习速率,防止其过拟合;应用 LR 对样本参数进行优化,建立 LR-GBRT 回归预测模型; 将该预测模型应用于液压支架阻力的预测, 预测结果与 LR (线性回归 模型) 、 SVM (支持向量机模型) 、 DTR (决策树回归模型) 、 EN (弹性网回归模型) 进行对比分析。 结 果表明 LR-GBRT 模型具有较强的泛化能力, 较高的预测精度, 可以对液压支架阻力进行有效 预测。 关键词 梯度提升回归算法; 逻辑斯谛算法; 工作面液压支架阻力; 预测; 学习速率 中图分类号 TD353文献标志码 A文章编号 1003-496X (2020) 07-0166-05 Application of Gradient Boosting Algorithm in Hydraulic Support Selection of Typical Shallow Coal Seam ZHANG Jie1, SUN Yao1, XIE Danghu2, CAI Weishan1, LIU Qingzhou1, LONG Jingjing3 (1.School of Energy Engineering, Xi’ an University of Science and Technology, Xi’ an 710054, China;2.Shaanxi Yongxin Mining Co., Ltd., Yulin 719407, China;3.Gansu Changba Nonferrous Metals Co., Ltd., Longnan 742500, China) Abstract A new using gradient boosting regression tree (GBRT)which is optimized by logistic regression (LR)to predict working resistance of hydraulic support is proposed, avoiding shortcomings of current determining s. Add learning rate to GBRT to limit the learning rate of sub-models and prevent over-fitting; using LR to optimize sample parameters to establish LR- GBRT regression prediction model; the model is applied to predict resistance of hydraulic support, and the prediction result is compared with linear regression (LR) , support vector model (SVM) , decision tree regression (DTR) , elastic net regression (EN) . The results show that the model has better generalization perance and higher prediction accuracy. It can effectively predict resistance of hydraulic support Key words gradient boosting regression tree(GBRT) ; logistic regression(LR) ; working resistance of hydraulic support; predic- tion; learning rate 近年来,大采高综采技术在浅埋煤层开采中得 到了广泛应用, 已成为煤矿开采主要方向[1]。而由于 采高加大, 导致采场矿压显现剧烈, 极易引发冒顶、 压架及片帮等事故,故此,支架阻力的合理选型具 有积极意义。目前,支架阻力的选型方法主要有理 论计算法、相似模拟法、数值模拟以及神经网络法 等。其中理论计算方法[2-4]过于理想化, 同实际覆岩 DOI10.13347/ki.mkaq.2020.07.036 张杰, 孙遥, 谢党虎, 等.Gradient Boosting 算法在典型浅埋煤层液压支架选型中的应用 [J] . 煤矿安全, 2020, 51 (7 ) 166-170, 175. ZHANG Jie, SUN Yao, XIE Danghu, et al. Application of Gradient Boosting Algorithm in Hydraulic Support Selection of Typical Shallow Coal Seam [J] . Safety in Coal Mines, 2020, 51 (7) 166-170, 175. 基金项目 国家自然科学基金资助项目 (51774229,51474173) ; 陕西 省创新能力支撑计划 - 科技创新团队资助项目 (2018TD- 038) 移动扫码阅读 166 ChaoXing 第 51 卷第 7 期 2020 年 7 月 Safety in Coal Mines Vol.51No.7 Jul. 2020 有一定差异; 数值模拟[5-7]的各项参数同地质条件相 关, 准确参数难以获取; 相似模拟[8-10]对材料要求较 高, 难以准确模拟实际地质条件; 神经网络法[11-12]综 合考虑各影响条件,但其对数据量要求较高,极易 过度学习, 普适性差。 基于此, 提出梯度提升 (GBRT) 算法来预测支架阻力,避免了以上方法的不足。但 模型的预测精度和泛化能力受参数的影响明显, 因 此采用改进的逻辑斯谛 (Logistic)算法对参数进行 优化, 建立支架阻力预测的 LR-GBRT 模型。 1研究方法 1.1基于逻辑斯谛算法的特征选择 逻辑斯谛是 1 种速度快,能够快速吸收新数据 并更新模型的适合分类问题的算法模型[13]。选择该 模型对样本进行特征预处理。对于样本训练集 A (xi, yi) , i1, 2, 3, , N, 其中 xi, 为影响支架阻力 yi 的特征向量,单个样本训练集的代价函数 (cost function) cost (hθ, y) 为 cost (hθ, y) = -lg (hθ(x) )ify=1 -lg (1-hθ(x) )ify= { 0 (1) 式中 θ 为用最小化代价函数可求得的参数; hθ为以样本集决策边界为自变量的 sigmoid 函数, hθ(x) 1 1e -θTx ; T 为向量转置符。 加入正则化 L1后的逻辑斯谛算法代价函数 cost1(θ) 表达式为 cost1(θ) =- 1 N N i 1 ∑( (yilg (hθ(x) ) ) + (1-yi) lg (1-hθ(xi) ) ) +α‖ω‖1(2) 式中 N 为训练样本个数; α‖ω‖1为 L1正则项; α 为调整 L1正则项同代价函数之间关系的系数, α≥0; ‖ω‖1为参数向量 ω 的 L1范数。 L1正则化对样本进行降维处理,部分特征的系 数缩小为 0, 会致使某些影响支架阻力的因素漏选, 而对于漏选的因素无法证明其不重要。 L2正则化是指权值向量 ω 中各个元素的平方 和然后再求平方根, 通常表示为 (1 2 λ)‖ω‖2 2 (λ 为调整 L2正则项同代价函数之间关系的系数) 。 L2使特征的系数缩小, 而不会缩减为 0。 加入 L2 正则项后的逻辑斯谛算法代价函数cost2(θ) 为 cost2(θ) =- 1 N N i 1 ∑(yilg (hθ(xi) ) + (1-yi) lg (1-hθ(xi) ) ) + 1 2 λ‖ω‖2 2 (3) 式中cost2(θ) 中参数同 cost1(θ) ,‖ω‖2 2 为参 数向量 ω 的 L2的范数。 在 L2中选择权值系数之差小于 0.5 的阈值, L1 中选择其权值为 0 的特征集组合成 1 个新的集合, 并将 L1中的权值平均分配给该新集合中的特征值。 将经过 L1和 L2正则化后的数据集作为梯度提升决 策树的原始数据进行回归预测。 1.2梯度提升决策树算法 GBRT 在每次迭代时通过对其损失函数最小 化, 在残差减少的梯度方向上新建立 1 棵弱决策树。 最后将所有的弱决策树累加起来得到强决策树得到 最终预测结果[14]。 将液压支架的阻力用 y 表示,影响液压支架阻 力的变量用 x 表示, N 表示用于训练的样本数。 算法 过程如下。 1.2.1定义算法中默认的损失函数 L (yi, f (xi) ) L (yi, p) = 1 2(y i-f (xi) ) 2 式中 f (xi) 为预测液压支架阻力值,i1, , N。 初始化强学习器 f0(x) 为 f0(x) =argmin ρ N i = 1 ∑L (yi, ρ)(4 ) 式中 ρ 为只有 1 个根节点的树, 来估计使损失 函数极小化的常数值。 1.2.2迭代 m=1, 2, 3, , M 次后的负梯度值 ymi=- (∂L (yi, f (xi ) ) ∂f (xi) )f (x) =f n-1(x), i1, 2, 3, , N (5 ) 根据样本及其负梯度方向 (xi, ymi) 得到由 J 个叶 子节点组成的决策树,叶子节点区域为 Rmj, j=1, 2, , J; 最佳残差拟合值 ρmj为 ρmj=argmin ρ xi∈Rmj ∑L (yi, fm-1(xi) +ρ)(6) 本次迭代后的学习器 fm(x) 为 fm(x) =fm-1(x) + J j = 1 ∑ρmjI, x∈Rmj(7 ) 式中 I 为指示函数, 满足条件 x 落入叶子节点 区域时取 1, 否则取 0。 该算法最终模型由数个子模型集成所得,当模 型训练速度较大时, 会忽略一些样本信息,容易过拟 合。基于此,加入参数来控制子算法模型的学习速 率, 则式 (7) 变为 fm(x) =fm-1(x) +0.1 J j = 1 ∑ρmjI, x∈Rmj(8 ) 167 ChaoXing 第 51 卷第 7 期 2020 年 7 月 Safety in Coal Mines Vol.51No.7 Jul. 2020 2液压支架阻力预测模型的建立与评价 2.1影响因素以及样本选取 选择样本数据首先应确定所研究问题的影响因 素。根据前人研究表明,影响工作面支架阻力的主 要因素有[15-17] 煤层埋深、 工作面长度、 顶板岩石抗 拉抗压强度、 顶板厚度、 来压步距。样本选择时数据 应选取代表性样本,避免数据集中化,样本越具有 代表性,模型越具有普适性。在通过现场调研及文 献查阅, 选取 43 组具有代表性的浅埋煤层工作面数 据。其中, 随机选取 28 组作为训练数据, 15 组作为 预测数据。部分数据见表 1。 2.2模型的建立与评价 为消除参数的量纲不同对预测精度的影响, 调 用 Python -Sklearn 库 的 Proprocessing.MinMaxScaler 函数进行归一化处理。 为验证基于 LR-GBRT 预测模型的预测能力, 搭建并调试决策树 (DTR, 树深取 3) 、线性回归 (LR) 、 弹性网回归 (ENR) 以及支持向量机 (SVM,核 函数取 rbf, C1103, γ0.2, 其中, C 是惩罚系数, 即 对支架阻力预测结果误差的宽容度, γ 为 rbf 核函数 自带参数,该值决定了预测后的支架阻力数据映射 到新的特征空间后的分布) 等常用算法的预测模型 至最优状态,并用训练样本集分别训练以上模型进 行预测比较。 为了验证各模型的阻力预测结果,采用平均绝 对误差 (MAE) 、 均方误差 (MSE)和拟合度 (R2) 3 个 指标来评价各模型在测试集上的预测效果,其中平 均绝对误差和均方误差越接近 0,拟合度越接近于 1, 说明模型拟合性能越好, 支架阻力的预测准确率 越高。 MAE 1 N N i 1 ∑yi-yi(10 ) MSE 1 N N i 1 ∑yi-yi() 2 (11 ) R21- N i 1 ∑yi-y i () 2 N i 1 ∑yi-y i () 2 (12 ) 式中 yi为第 i 个测试样本的支架阻力真实值; y i为其对应的支架阻力预测值; yi为测试样本均值; i=1, 2, 3, , N; N45。 为获取预测支架阻力的 3 种指标值,减少随机 误差, 采用了 10 折交叉检验法[18]来总体评价模型的 预测能力。在 k 折交叉检验中 (本文取 10 ) , 样本被 分割成 k 个大小相等的样本子集,保留 1 个子样集 作为验证数据, 剩余 k-1 个子样集训练模型, 将该 过程重复 k 次, 每个子样本仅用作验证数据 1 次。 最 后, 将来自每次所得结果值进行平均, 可得到 1 个总 体性能评价指标。 图 1LR-GBRT 算法流程图 Fig.1Flowchart of LR-GBRT algorithm 采高 /m 埋深 /m 工作面 长度/m 抗拉强 度/MPa 抗压强 度/MPa 顶板厚 度/m 来压步 距/m 支架阻 力/kN 7.00230.01502.3036.511.009.88 764 4.00150.01702.5028.417.4413.59 650 4.92295.01982.7034.615.8517.510 237 6.00299.41501.6836.421.2212.810 925 5.29210.01172.5029.69.6013.09 350 表 1部分数据 Table 1Partial data 1.2.3M 次迭代后得到集成算法模型 fM(x) =ρ+0.1 M m 1 ∑ J j 1 ∑ρmjI, x∈Rmj(9) 根据上述分析以及树的最大分裂节点和最大树 深关系, 选取树深 3 为 GBRT 树深参数。LR-GBRT 算法流程图如图 1。 168 ChaoXing 第 51 卷第 7 期 2020 年 7 月 Safety in Coal Mines Vol.51No.7 Jul. 2020 2.3预测结果分析 基于支架阻力训练样本集,对上述各算法模型 调试至最优态,将其在测试集上的支架阻力预测结 果同实际阻力值进行比较, 预测模型结果如图 2。 图 2预测模型结果 Fig.2Prediction model results 由图 2 可知, DTR 和 SVR 的拟合趋势较好, 偏 差相对较小; LR 和 EN 误差相对较大,原因可能是 因为用于训练的数据集较少; LR-GBRT 预测模型对 数据预测效果最好,拟合度高,更适用于小样本数 据情况; 6 折交叉验证结果见表 2。表 2 结合不同评 价指标描述了上述预测模型在测试集上的支架阻力 预测性能。对比模型交叉验证结果可知, LR-GBRT 的可解释变异和拟合度相较于其它 4 个模型的值最 接近 1, 均方误差和平均绝对误差的值相较于其它 4 个模型值最小。LR-GBRT 模型表现最优,体现了 LR-GBRT 回归模型在预测液压支架阻力上具有较 好的预测精度。由此也可看出,支架阻力同各影响 169 ChaoXing 第 51 卷第 7 期 2020 年 7 月 Safety in Coal Mines Vol.51No.7 Jul. 2020 表 26 折交叉验证结果 Table 2Results of 6-fold cross validation 平均绝对误差均方误差拟合度 DecisionTreeRegressor693.248 79.101050.795 081 Linear Regression1 587.742 03.711060.163 823 Elastic Net1 614.036 03.831060.138 227 SVR133.972 71.511050.895 933 LR-GBRT83.180 48.881040.968 351 因素支架具有复杂的非线性关系特点。 3工程应用 Qt 是 C跨平台应用程序框架, 该框架受到广 泛应用。例如, Itasca 公司在该框架下开发了 FLAC、 PFC 以及 UDEC 等多款数值模拟软件。Python 同其 结合为 PyQt, 在 PyQt 环境下, 将训练好的模型封装 并进行 GUI 开发, 以便工程实际应用。 为了验证开发后的系统在预测最大液压支架阻 力的实际效果,分别对南梁煤矿 1-2煤工作面和韩 家湾煤矿 3302 工作面采用在线式 KJ513 型矿压监 测系统在工作面上部、中部和下部分别布置 3 条测 线, 以工作面距开切眼 100 m 位置处开始观测。工 作面上中下 3 部分支架工作阻力随工作面推进的变 化曲线如图 3。在此过程中南梁矿发生 12 次周期来 压, 韩家湾矿发生 10 次。最大来压分别为 8 439 kN 和 12 003 kN, GBRT 预测结果分别为 9 024 kN 和 12 320 kN,工作阻力和预测最大阻力比值分别为 93.5和 97.4, 实践证明, 该系统能较好的对液压 支架阻力进行预测, 达到现场应用要求。 4结论 1) 基于梯度提升理论, 通过选取煤层埋深、 工作 面长度、覆岩抗拉抗压强度、直接顶厚度和来压步 距等 7 个主要影响因素作为液压支架阻力选型的判 别指标,结合 43 组浅埋煤层样本数据,利用 Python3.6 建立了液压支架阻力预测的 GBRT 模型, 并限制其学习速率, 防止模型过拟合。 2 ) 利用 DTR、 SVR、 EN、 LR 和 LR-GBRT 构建的 预测模型,对样本的支架阻力预测进行交叉检验以 检验其可靠度。结果表明, 用 LR-GBRT 模型预测本 文样本的拟合度最高, 同比其余 4 种算法具有较高的 精确度。可见,该模型对预测支架阻力是行之有效 的, 它为支架阻力的选型确定提供了 1 条新途径。 3) 基于 PYQT 进行 GUI 开发, 能更好的将其应 用于工程实践; 需要指出的是, 该于液压支架阻力的 预测中还只是初步尝试,模型的预测结果很大程度 上取决于指标的选取。今后的研究工作中,将进一 步研究影响支架阻力的因素,如构造应力、地下水 作用以及掘进速度等,考虑更多的影响因素并建立 云数据平台囊括更多数据,以期进一步增强模型的 泛化能力, 为支架阻力选型提供 1 个新途径。 参考文献 [1] 余学义, 穆驰, 毛旭魏, 等.大采高综采工作面支架合 理工作阻力研究 [J] .煤矿安全, 2017, 48 (6 ) 196-199. [2] 程占博.综放工作面支架载荷估算方法 [J] .煤矿安全, 2015, 46 (12) 210-213. [3] 唐仁龙, 李龙清, 丁自伟, 等.小保当煤矿大采高综采 支架工作阻力确定 [J] .煤炭工程, 2018, 50 (9) 4-7. [4] 许春雷, 宋选民.大柳塔矿薄基岩条件下支架阻力的 确定及矿压规律分析 [J] .煤矿安全, 2013, 44 (11 ) 207. [5] 李龙清, 荆宁川, 苏普正, 等.大采高综采支架工作阻 力综合分析与确定 [J] .西安科技大学学报, 2008 (2) 254-258. [6] 邸帅, 王继仁, 宋桂军.上湾煤矿 8.5 m 采高综采面液 压支架关键参数分析 [J] .安全与环境学报, 2018, 18 (4) 1316-1322. [7] 刘洋, 吴桂义, 孔德中, 等.大采高工作面支架阻力确 定及顶板运移规律的采厚效应分析 [J] .煤矿安全, 2018, 49 (2) 202-205. 图 3支架工作阻力随工作面推进的变化曲线 Fig.3Variation curves of support working resistance with working face advance (下转第 175 页) 170 ChaoXing 第 51 卷第 7 期 2020 年 7 月 Safety in Coal Mines Vol.51No.7 Jul. 2020 [8] 刘英杰, 冯忠居, 李鹏, 等.近浅埋煤层覆岩关键层对 综采工作面压力的影响分析 [J] .中国安全生产科学 技术, 2018, 14 (10) 119-126. [9] 刘全明, 于雷.浅埋深综放采场覆岩结构对矿压显现 规律的影响 [J] .煤炭科学技术, 2017, 45 (3) 20-25. [10] 魏中举, 余芳芳, 刘富奎, 等.浅埋深煤层开采顶板活 动规律相似模拟试验研究 [J] .煤炭技术, 2016, 35 (12 ) 43-44. [11] 张丽华, 蔡美峰.顶板来压识别与预测的复合小波神 经网络方法 [J] .煤炭科学技术, 2003 (7) 41-43. [12] 郝宏宇.基于 BP 人工神经网络支护强度的分析 [J] . 现代矿业, 2016, 32 (11) 40-41. [13]PAMPEL F C. Logistic Regression A Primer[M] . SAGE, 2000. [14]FRIEDMAN J H. Greedy function approximation a gradient boosting machine [J] . Annals of statistics, 2001, 29 (5 ) 1189-1232. [15] 娄金福, 康红普, 高富强, 等.基于 “顶板-煤壁-支架” 综合评价的大采高支架工作阻力研究 [J] .煤炭学报, 2017, 42 (11) 2808-2816. [16] 何团, 周绍华.综放工作面支架工作阻力影响因素分 析及预计 [J] .中国煤炭, 2015, 41 (11) 52-55. [17] 汪腾蛟.液压支架阻力与开采高度关系的数值模拟 研究 [J] .煤矿机械, 2017, 38 (9) 41-45. [18]Kohavi R. A study of cross-validation and bootstrap for accuracy estimation and model selection [C] //In- ter-national Joint Conference on Artificial Intelligence. 1995 1137-1143. 作者简介 张杰 (1978) , 四川达县人, 教授, 博士, 2008 年毕业于西安科技大学, 主要从事浅埋煤层开采灾害 与防治研究。 (收稿日期 2019-04-11; 责任编辑 朱蕾) (上接第 170 页) 井突水机理的基础上,采取区域治理切断奥灰突水 通道、弱化奥灰含水层顶部的富水性,是深部煤层 开采防治突水最有效的途径之一。做好区域治理工 作,再辅之于其它手段,深部煤层开采防治水安全 是有保证的, 峰峰矿区深部煤层开采利用区域治理 技术就实现了多年的防治水安全生产。 参考文献 [1] 赵铁锤.华北地区奥灰水综合防治技术 [M] .北京 煤 炭工业出版社, 2006. [2] 国家煤矿安全监察局.煤矿防治水细则 [M] .北京 煤 炭工业出版社, 2018. [3] 赵庆彪.奥灰岩溶水害区域超前治理技术研究及应用 [J] .煤炭学报, 2014, 39(6) 1112-1117. [4] 赵兵文, 关永强.大采深矿井高承压奥灰岩溶水综合 治理技术 [J] .煤炭科学技术, 2013, 41 (9) 75-78. [5] 李冲.深部矿井奥灰水害防治技术 [J] .煤矿安全, 2016, 47 (5) 101-103. [6] 赵庆彪.华北型煤田深部煤层开采区域防治水理论与 成套技术 [M] .北京 科学出版社, 2016. [7] 刘建功, 赵庆彪, 尹尚先, 等.煤田隐伏岩溶陷落柱探 查与综合治理技术 [M] .北京 煤炭工业出版社, 2011. [8] 刘存玉.综合防治水技术在梧桐庄矿的应用 [J] .煤矿 安全, 2010, 41 (2) 42-45. [9] 王铁记, 白峰青, 王君现, 等.奥灰特大突水灾害快速 治理技术峰峰矿区实例研究 [M] .北京 冶金工业 出版社, 2017. [10] 冀中能源峰峰集团有限公司.冀中能源峰峰集团矿 井防治水管理规定 [Z] .邯郸 冀中能源峰峰集团有 限公司, 2019. [11] 李冲.深部矿井奥灰水害 “七位一体” 防治体系研究 [J] .中国煤炭, 2016, 42 (3) 106-109. 作者简介 王铁记 (1965) , 河北定州人, 正高级工程 师, 硕士, 现任冀中能源峰峰集团副总工程师, 主要从事煤 矿防治水方面的工作。 (收稿日期 2020-03-26; 责任编辑 陈洋) 175 ChaoXing
展开阅读全文