资源描述:
基于逻辑回归-聚类算法的采空区危险等级 评价模型 黄新典 1 褚夫蛟 21 (1. 中共贵州省委党校应急管理培训部, 贵州 贵阳 550028; 2. 山东理工大学资源与环境工程学院, 山东 淄博 255000) 摘要采空区危险性分级研究在矿山灾害防治和风险管理中具有重要意义。为克服传统采空区危险性评 价指标繁多、 计算复杂等问题, 提出了一种采空区危险等级快速评价模型。基于110个采空区样本, 将随机森林算 法 (Random Forest, RF) 与递归特征消除理论 (Recursive feature elimination, RFE) 相结合, 筛选出对采空区危险性分 级信息量贡献较大的指标, 克服传统评价指标繁多且不易获取的缺陷, 实现采空区评价指标体系精简降维。基于 逻辑回归理论得到采空区危险性概率模型, 并应用K-means快速聚类算法求得采空区危险性概率的4个聚类中心 点, 耦合2种算法构建了采空区危险等级快速分级模型, 以克服传统采空区危险性评价方法计算复杂、 普适性差的 缺陷。为验证该评价模型的有效性, 基于混淆矩阵对评价模型的准确性进行了验证分析。研究表明 ①RQD值、 矿 柱尺寸布置、 岩体结构、 采空区高度、 地质构造、 工程布置、 地下可见水赋值为采空区分级评价中信息贡献量较大的 指标; ②模型分级准确率达到77.4, 第一类错误率降低至6.25, 危险采空区的预测准确率达到93.75, 评价结果 可为采空区后续治理提供可靠依据。 关键词采空区RF算法RFE算法逻辑回归理论K-means聚类 中图分类号TD853文献标志码A文章编号1001-1250 (2019) -08-179-06 DOI10.19614/ki.jsks.201908030 Risk Grade uation Model of Goaf Based on Logical Regression and Clustering Algorithm Huang Xindian1Chu Fujiao22 (1. Department of Emergency Management, Party School of the Guizhou Provincial Committee of the Communist Party of China, Guiyang 550028, China; 2.School of Resources and Environment Engineering, Shandong University of Technology, Zibo 255000, China) AbstractThe study on risk classification of goaf has important significance in mine disaster prevention and risk man- agement.In order to overcome the problems of numerous inds and complex calculation in traditional s, a rapid grade uation model of goaf is proposed.Based on 110 goaf samples, combines random forest(RF)with recursive feature elimina- tion(RFE)algorithm to select indicators that contribute most ination in classification, which overcomes the shortcomings in traditional s whose indicators which are numerous and difficult to obtain, realizes the dimension reduction of the uation index system of goaf.Based on logistic regression theory, the probability model of goaf risk is obtained, and four clus- tering centers of goaf risk probability are obtained by fast clustering algorithm, coupled with two algorithms, a fast grade u- ation model of goaf is constructed to overcome the shortcomings of complex calculation and poor universality in traditional s.In order to verify the validity of the uation model, its accuracy was verified and analyzed based on confusion ma- trix.The study results show that①RQD value, pillar size and layout, rock mass structure, goaf height, geological structure, en- gineering layout, groundwater are these indicators that contribute most ination in goaf risk classification; ②the classifica- tion accuracy rate of the fast classification model constructed in this paper reaches 77.4, the error rate of the first category is as low as 6.25, and the accuracy rate of predicting dangerous goaf reaches 93.75, the model can provide effective ina- tion for goaf management in actual production. KeywordsGoaf, RF algorithm, RFE algorithm, Logistic regression theory, K-means clustering 收稿日期2019-06-28 基金项目山东省重点研发计划项目 (编号 2017CXGC1604) 。 作者简介黄新典 (1983) , 男, 讲师, 硕士。通讯作者褚夫蛟 (1988) , 男, 讲师, 博士。 总第 518 期 2019 年第 8 期 金属矿山 METAL MINE Series No. 518 August 2019 179 ChaoXing 金属矿山2019年第8期总第518期 采空区是地下矿山的主要危险源之一, 采空区 内部顶板和矿柱的变形与失稳破坏, 会诱发坍塌、 冒 落、 空区积水, 进而导致工作面透水及地表沉陷等灾 害。为高效治理地下采空区, 需要对采空区的危险 性进行分级评价, 针对不同危险等级采取针对性的 治理措施, 确保矿山安全生产。 近年来, 学者们对采空区危险性评价方法进行 了大量研究, 常用的评价模式可以分为两类 基于等 级确定度的分级算法和基于机器学习的分类算法。 前者基于专家经验对评价指标赋权, 通过不同的评 价方法进行等级分类, 因此评价结果主观性较强。 此外, 该模式中各评价方法也存在缺陷 如云模型实 现了定性指标的定量转化, 但该方法假设评价指标 满足正态分布, 并且在计算等级确定度时受到处于 区间均值处的指标影响过大, 影响评价结果的准确 性 [1-3]; 物元可拓法忽视了指标的不确定性, 处理离散 优化问题效果不理想 [4]; 模糊综合评价法克服了传统 数学方法中 “唯一解” 的不足, 但评价结果受指标间 的信息重叠度影响较大 [5-6]; 综合指数法评价过程简 单, 数据利用充分, 但对指标标准依赖性过高, 指标 异常值影响了评价结果的准确性 [7]。第二类模式是 从评价结果出发, 基于大量采空区样本对模型进行 训练, 因而其评价结果较为客观, 该类模式对样本数 量要求较高, 并且准确性受初始边界选择影响较大, 如神经网络模型初始权值、 阈值及隐藏层数的设置 是研究难点 [8]。随着人工智能与机器算法的发展, 基 于机器学习的分类算法因其准确性、 迅捷性等优势 受到越来越多研究人员的青睐。 本研究综合考虑以上两类模型的优缺点, 基于 RF-RFE算法简化评价指标体系, 筛选出对采空区危 险性分级信息量贡献较大的指标; 为克服第一类评 价模式的复杂计算以及第二类模式中初始边界值选 取的困难, 应用逻辑回归理论和K-means聚类理论构 建快速评价模型, 实现采空区危险等级快速分级。 1理论基础 1. 1RF-RFE算法 随机森林 (RF) 算法是Breiman L [9]在2001年提出 的一种多棵决策树集成学习算法, 不仅能用于分类, 并且可以实现指标信息量排序, 算法步骤为 ①应用 Bootstrap抽样方法, 从N个原始样本中随机有放回地 抽取n个样本, 使用n个样本构建一颗决策树hn, 没 有被选中的样本构成袋外数据Nn; ②在决策树的每 一个节点检测指标集的m个变量, 计算每一个指标 的信息贡献量, 从m个指标中选择一个分类能力最 佳的指标进行节点分裂; ③每颗决策树都分裂到最 后一个指标被选择, 不进行剪枝; ④重复步骤①~③ p 次, 生成含有p棵决策树的随机森林; ⑤使用生成的p 棵决策树对袋外数据Nn进行分类, 并计算袋外数据 样本的分类正确率Rk; ⑥总体样本的每一个初始指 标记为λll1,2,3,,13, 依次对袋外数据的 指标数据添加随机噪声, 得到新的袋外数据Nnl, 重 复步骤④, 得到正确率Rk; ⑦根据式 (1) 计算指标λl 的信息量 Vl 1 p∑ i1 p Rk-Rk,(1) 式中,Vl为指标λl的分类信息量; p为随机森林中决策 树的数量;Rk为随机森林对初始指标数据的分类正确 率;Rk为随机森林对各指标依次增加噪声后的数据 进行分类的正确率。根据各指标噪声对随机森林分类 准确度的影响程度确定不同指标的分类信息量。 递归特征消除 (RFE) 算法是基于指标信息量排 序的指标筛选方法。本研究采用向后删除法选择指 标子集。该方法的主要思路是通过不断构建分类模 型, 根据指标的信息量排序, 依次删除信息量最小的 指标, 反复迭代, 直至满足要求为止。 如图1所示, RF-RFE算法基于初始训练集数据, 使用RF算法得到指标的信息量序列; 每次删除信息 量最小的指标, 并使用剩余指标重新构建新的随机森 林, 并测试其分类正确率; 通过逐次迭代, 计算每次分 类的正确率, 直到所有指标搜索完毕; 最后得到对应 不同变量个数的分类正确率以及随机森林。 1. 2逻辑回归理论 逻辑回归理论揭示了一个因变量与多个互不相 关的自变量之间的多元回归关系 [10]。采空区可以分 为稳定、 危险两个状态, 本研究将数据库中危险等级 为Ⅰ、 Ⅱ的采空区定义为安全, 将危险等级为Ⅲ、 Ⅳ 180 ChaoXing 黄新典等 基于逻辑回归聚类算法的采空区危险等级评价模型2019年第8期 的采空区定义为危险, 将采空区状态简化成一个二 分类变量, 继而使用逻辑回归理论评估采空区状 态。采空区状态评价公式为 Yln■ ■ ■ ■ P 1-P C0C1X1C2X2CnXn, (2) 式中,P为采空区处于危险状态的概率,P∈[]0,1; C0为 截 距 ;C1,C2,,Cn为 逻 辑 回 归 系 数 ; X1,X2,,Xn为采空区危险性评价指标量值。 一般根据采空区处于危险状态的概率值来评估 采空区的真实状态, 因此, 式 (2) 可改写为 PeY 1eY.(3) 在采空区状态分析中, 逻辑回归理论的作用是 寻找最优的拟合函数来描述采空区危险性概率和 RQD、 矿柱尺寸及布置、 岩体结构、 采空区高度等评 价指标之间的关系。 1. 3K-means快速聚类算法 K-means快速聚类算法 [11]的基本思路是将n个 样本划分为k个聚类, 同一聚类中的对象具有较高的 相似度, 具体算法步骤如下 (1) 随机选择k个聚类中心x1z,x2z,x3z,,xkz; (2) 计算每一个样本与聚类中心的距离, 并将样 本与最近的聚类中心归于一个蔟群 min[ ] dxi,xkz ∑ u1 η xui-xuz 2 ,(4) 式中,xi为样本;xuz为聚类中心点;η为样本指标属 性的个数;d为各样本与初始聚类中心点之间的距 离。本研究是在逻辑回归模型所得的采空区危险性 概率基础上细化采空区危险性等级, 因此, 仅将采空 区危险性概率P作为样本指标属性, 即η1。经过 式 (4) 进行初始分类后, 将所得的分类结果记为 Ci{ } Ci 1,C i 2,C i 3,,C i k 。 (3) 在步骤 (2) 的基础上, 确定新的聚类中心点 xm kz, 计算公式为 xm kz 1 nm-1 kz ∑xt ,(5) 式中,xm kz为新凝聚中心点;n m-1 kz 为每次重新聚类后各 蔟群中包含的样本数量; m为计算次数;xt为每次聚 类后各簇群的各个样本点,t1,2,3,,nm-1 kz 。 以新的聚类中心点代替上一个中心点。 (4) 重复步骤 (2) 和步骤 (3) , 直至聚类中心点不 再改变为止。 快速聚类分析的最大特点是消除了在采空区危 险性分级中人为因素的影响。本研究采空区危险等 级评价流程如图2所示。 2采空区危险等级快速评价模型 2. 1采空区样本来源 通过查阅相关文献 [12]与云锡老厂矿现场调查, 建立了包含110个采空区数据及评价结果的数据库, 如表1所示。 2. 2基于RF-RFE算法的指标筛选 采用RF-RFE算法计算采空区初始评价指标的 信息量, 并从中选择关键性指标, 在一定程度上可以 避免由于变量过多造成模型过度拟合, 从而提升模 型准确度、 降低模型运行时间。根据文献 [13-14] , 决策树的数量设置为1 000, 在R-Studio软件中实现 指标筛选。得到评价指标的信息量大小排序为岩石 质量指标>矿柱尺寸布置>岩体结构>采空区高度>地 质构造>工程布置>地下可见水>跨度>周围开采影响 >暴露面积>采空区规格>埋深。依次删除信息量最 低的指标, 并重新计算分类正确率, 得到分类正确率 随着指标数量的变化曲线, 如图3所示。 由图3可知 当指标数量为12时, 即为初始评价 指标体系, 随着指标体系依次剔除信息量少的指标, 随机森林的分类正确率总体呈上升趋势, 说明剔除 信息量少的指标能够降低冗余信息对分类模型的影 响; 当指标删减至7个时, 分类模型的正确率达到最 高, 达到91%, 此后, 随着指标数量的减少, 分类模型 181 ChaoXing 金属矿山2019年第8期总第518期 的正确率急剧下降, 这说明剩余的7个指标均为关键 性指标。因此, 本研究采用这7个指标构建了采空区 危险性评价指标体系, 其中定量指标为岩石质量指 标RQD (X1) 和采空区高度 (X2) , 其余5个定性指标的 危险性分级结果如表2所示。 为反映各指标对采空区危险等级划分的影响, 以7个指标的量值作为横坐标, 以概率值为纵坐标绘 制了各指标的危险性分级概率分布曲线, 如图4所 示。根据图4可以分析出各指标不同取值对应的采 空区危险等级。 182 ChaoXing 2019年第8期 2. 3模型构建 本研究将危险等级为Ⅰ、 Ⅱ的采空区定义为安 全采空区, 将危险等级为Ⅲ、 Ⅳ的采空区定义为危险 采空区, 将采空区状态简化成一个二分类变量, 继而 使用逻辑回归理论实现采空区状态的评估。将110 个采空区样本随机划分为79个训练样本与31个测 试样本, 通过训练样本拟合得到采空区危险性预测 模型 ■ ■ ■ ■■ ■■ Y-0.227 3X10.004 5X21.293 2X31.007 3X4 1.873 6X50.913 4X61.602 1X7-4.582 1 Pe Y 1e Y .(6) 为进一步细化采空区危险性等级划分, 将模型 评价结果由 “安全” 和 “危险” 细化到Ⅰ、 Ⅱ、 Ⅲ、 Ⅳ 4个 危险等级。首先应用K-means快速聚类算法对79个 训练样本的危险性 (P) 进行聚类分析, 选择4个聚类 中心点, 得到4个类群的中心点对应的危险性, 每个 凝聚中心分别对应采空区Ⅰ、 Ⅱ、 Ⅲ、 Ⅳ 4个危险等级 中的中心危险性; 然后依据相邻凝聚中心的平均值 (0.264、 0.633、 0.868) , 将采空区危险性划分成稳固 (Ⅰ级) 、 较稳 (Ⅱ级) 、 不稳 (Ⅲ级) 和危险 (Ⅳ级) 4个 等级, 如表3所示。 在评价采空区危险性等级时, 通过危险性评价 模型 (式6) 计算该采空区的危险性取值, 根据危险性 P值所处的阈值区间, 确定该采空区的危险等级。某 采空区样本危险等级评价流程如图5所示, 其中X1 36, X24.5, X33, X43, X53, X62, X72。 3模型检验 将110个采空区样本随机划分为79个训练样本 与31个测试样本, 通过采空区危险性预测模型 (式6) 计算所有测试样本的采空区危险性, 结合K-means算 法聚类结果, 按危险性取值将图6划分为Ⅰ、 Ⅱ、 Ⅲ、 Ⅳ 4个等级区域, 图中每个点对应一个采空区样本, 4 种不同形状的点代表每一个样本的真实危险等级; 横坐标为采空区样本编号, 纵坐标为该样本经式 (6) 计算所得的危险性P。 由图6可知 6个Ⅰ级采空区和4个Ⅳ级采空区 全部被准确分级; 9个Ⅱ级采空区中, 2个采空区危险 等级被低估为Ⅰ级, 2个采空区危险等级被误判为Ⅲ 级; 12个Ⅲ级采空区中, 1个采空区危险等级被低估 为Ⅱ级, 2个采空区危险等级被误判为Ⅳ级。31个测 试样本中, 24 个采空区被正确分级, 正确率达到 77.4。然而在矿山生产中, 高估或低估采空区危险 性带来的后果严重性不对等, 低估采空区危险性可 能造成严重的安全事故, 高估采空区危险性仅可能 导致矿山安全成本浪费。 考虑到误判成本 (将稳定误判成危险或将危险 误判成稳定) 不对等, 本研究引入混淆矩阵 (表4) 来 量化误判成本, 混淆矩阵中, 行为采空区真实状态, 列为模型预测状态。每一个单元格均对应一种分类 情况, 共有4种分类情况, 分别用a,b,c,d表示。对角 线元素a和d为正确分类的采空区数量, 非对角线元 素b和c为错误分类的采空区数量。aab为稳定 采空区预测准确率,dcd为危险采空区预测准 确率,ccd为第一类错误 (危险采空区误判为稳 定采空区) 率,bab为第二类错误 (稳定采空区误 判为危险采空区) 率。在矿山生产中, 第一类错误造 成的后果远远严重于第二类错误, 因此, 预测模型的 第一类错误率应尽可能低。 表5为测试样本的混淆矩阵, 经过计算可知, 第 一类错误率仅为 (6.25) , 明显低于第二类错误率 (13.30) , 危险采空区的预测准确率达到93.75, 略 黄新典等 基于逻辑回归聚类算法的采空区危险等级评价模型 183 ChaoXing [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] 高于稳定采空区的预测准确率86.70, 模型预测精 度总体上较好。 4结论 (1) 构建了包含110个样本的采空区数据库, 应 用RF-REF算法对采空区危险性评价指标体系进行 降维, 最终选择了RQD值、 岩体结构等7个评价指标。 (2) 结合逻辑回归理论与K-means快速聚类算法 提出了采空区危险等级快速评价模型, 经验证, 该模 型分级准确率达到 77.40, 第一类错误率降低至 6.25, 危险采空区的预测准确率达到93.75, 实现 了采空区危险等级的快速精准评价。 参 考 文 献 高峰, 高宇旭, 周科平.基于RES-云模型的采空区稳定性评价 研究 [J] .灾害学, 2019, 34 (1) 17-21. Gao Feng, Gao Yuxu, Zhou Keping.Goaf stability uation based on RES-cloud model and analysis[J] .Journal of Catastrophology, 2019, 34 (1) 17-21. 赵国彦, 梁伟章, 洪昌寿.采空区稳定性的改进云模型二维评判 [J] .中国安全科学学报, 2015, 25 (10) 102-108. Zhao Guoyan, Liang Weizhang, Hong Changshou.Improved cloud model for two dimensional stability uation of goaf[J] .China Safety Science Journal, 2015, 25 (10) 102-108. 王瑞鹏, 高永涛, 吴顺川.基于改进熵-云模型的隧道采空区稳定 性评价 [J] .现代矿业, 2017 (10) 215-218. Wang Ruipeng, Gao Yongtao, Wu Shunchuan.Stability uation of tunnel goaf based on improved entropy-cloud model [J] . Modern Mining, 2017 (10) 215-218. 汪伟, 罗周全, 熊立新, 等.基于改进物元可拓模型的采空区稳 定性评价 [J] .安全与环境学报, 2015, 15 (1) 21-25. Wang Wei, Luo Zhouquan, Xiong Lixin, et al.Research of goaf sta- bility uation based on improved matter-element extension model [J] .Journal of Safety and Environment, 2015, 15 (1) 21-25. 黄慎, 周平, 黄茂钧.矿山地下采空区稳定性二级模糊综合 评价 [J] .有色金属 矿山部分, 2018, 70 (3) 9-11. Huang Shen, Zhou Ping, Huang Maojun.Two-level fuzzy compre- hensive uation of stability of mine goaf[J] .Nonferrous Metals Mining Section, 2018, 70 (3) 9-11. 刘浪, 陈忠强.模糊集对分析在矿山采空区稳定性评价中的应 用 [J] .中南大学学报 自然科学版, 2015, 46 (7) 2665-2672. Liu Lang, Chen Zhongqiang.Application of fuzzy set pair in stabili- ty uation of mining goaf [J] .Journal of Central South University Science and Technology, 2015, 46 (7) 2665-2672. 康钦容, 张卫中, 倪小山, 等.采空区稳定性评价的综合指数法 [J] .金属矿山, 2017 (3) 162-166. Kang Qinrong, Zhang Weizhong, Ni Xiaoshan, et al.Comprehensive index in goaf stability uation [J] .Metal Mine, 2017 (3) 162-166. 李孜军, 林武清, 陈阳.基于AGA-BP神经网络的采空区危险 性评价 [J] .中国安全生产科学技术, 2015, 11 (7) 135-141. Li Zijun, Lin Wuqing, Chen Yang.uation on risk of goaf based on AGA-BP neural network [J] .Journal of Safety Science and Tech- nology, 2015, 11 (7) 135-141. Breiman L.Random forests[J] .Machine Learning, 2001, 45 (1) 5- 32. 张俊, 殷坤龙, 王佳佳, 等.三峡库区万州区滑坡灾害易发性评 价研究 [J] .岩石力学与工程学报, 2016, 35 (2) 284-296. Zhang Jun, Yin Kunlong, Wang Jiajia, et al.uation of landslide susceptibility for Wanzhou District of Three Gorges Reservoir[J] . Chinese Journal of Rock Mechanics and Engineering, 2016, 35 (2) 284-296. Lin P, Wang Y H, Qi H S, et al.Distributed consensus-based K- means algorithm in switching multi-Agent networks[J] .Journal of Systems Science Complexity, 2018, 31 (5) 1128-1145. 侯俊, 程文文, 闵忠鹏, 等.基于未确知测度理论的采空区稳定 性分级 [J] .黄金, 2017, 38 (11) 29-33. Hou Jun, Cheng Wenwen, Min Zhongpeng, et al.Classification of goaf stability based on uncertainty measurement theory[J] .Gold, 2017, 38 (11) 29-33. 商强, 林赐云, 杨兆升, 等.基于变量选择和核极限学习机的交 通事件检测 [J] .浙江大学学报 工学版, 2017, 51 (7) 1339-1346. Shang Qiang, Lin Ciyun, Yang Zhaosheng, et al.Traffic incident de- tection based on variable selection and kernel extreme learning ma- chine[J] .Journal of Zhejiang UniversityEngineering Science, 2017, 51 (7) 1339-1346. Guyon I, Weston J, Barnhill S, et al.Gene selection for cancer clas- sification using support vector machines[J] .Machine Learning, 2002, 46 (1-3) 389-422. (责任编辑王小兵) 金属矿山2019年第8期总第518期 184 ChaoXing
展开阅读全文