资源描述:
第 卷第 期煤 炭 科 学 技 术 年 月 移动扫码阅读 林海飞,周 捷,高 帆,等基于特征选择和机器学习融合的煤层瓦斯含量预测煤炭科学技术,, () , , , ,,() 基于特征选择和机器学习融合的煤层瓦斯含量预测 林海飞,,周 捷,高 帆,金洪伟,,杨卓亚,刘时豪 ( 西安科技大学 安全科学与工程学院,陕西 西安 ; 西安科技大学 煤炭行业西部矿井瓦斯智能抽采工程研究中心,陕西 西安 ) 摘 要煤层瓦斯含量是矿井瓦斯灾害防治及煤层气勘探开发的基础参数,为提高其预测精度及科学 性,对典型矿井煤层瓦斯含量的 组实测数据进行了零均值规范化处理,通过全子集回归和随机 森林 种特征选择方法对 类影响煤层瓦斯含量的参数进行不同规律组合,得到 种瓦斯含量特 征参数组合。 运用高斯过程回归、最小二乘支持向量机、梯度提升回归树和极限回归机等 种经典有 监督机器学习算法,分别对 种特征参数组合进行预测,得到 种瓦斯含量预测模型。 根据各机器 学习算法平均判定系数,对 种瓦斯含量预测模型进行初步筛选。 综合归一化均方误 差 以及希尔不等系数 ,得到 种基于特征选择和机器学习融合的最优预测模型,并取 平均值得到了最终预测序列。 结果表明最终预测序列的归一化均方误差为 ,希尔不等系数为 ,判定系数为 ,平均绝对误差为 ,平均相对误差为 ,各精度评估指标均符 合要求,所构建的多参数组合多算法融合的预测模型具有广泛的普适性且精度较高。 关键词瓦斯含量;精准预测;煤层气勘探开发;瓦斯灾害 收稿日期;责任编辑王晓珍 基金项目国家自然科学基金重点资助项目();陕西省杰出青年资助项目();陕西省企业重点联合基金资助项目() 作者简介林海飞(),男,山西天镇人,教授,博士生导师,博士。 中图分类号 文献标志码 文章编号() ,, , , ,, , ( , , ,; , ,) , , , , , , , , , , , , , , ; ; ; 中国煤炭行业知识服务平台 w w w . c h in a c a j . n et 林海飞等基于特征选择和机器学习融合的煤层瓦斯含量预测 年第 期 引 言 煤层瓦斯含量是预测矿井瓦斯涌出量、煤矿瓦 斯危险程度评价以及煤层气资源勘探开发的重要依 据之一。 煤层瓦斯含量影响因素众多,各因素 具有复杂性、非线性、动态性和随机不确定性等特 点,使得准确预测煤层瓦斯含量较为困难。 为解决 该问题,基于案例分析的瓦斯地质数学模型法 得到了快速发展,该方法主要是借助于机器学习算 法、数据挖掘技术等数学工具,通过分析与瓦斯含量 相关的数据,建立考虑多因素动态变化的瓦斯含量 预测模型。 近年 来, 神 经 网 络、 支 持 向 量 回 归 机、线性回归等方法被广泛应用于瓦斯含量 预测。 此外,周鑫隆等采用灰熵分析法以及径 向基函数模型进行瓦斯含量预测,谷松等将灰色 理论引入小波神经网络对煤层瓦斯含量进行预测。 等基于量化理论建立了瓦斯含量预测模 型。 姜家钰等提出利用工作面瓦斯涌出量反演 煤层原始瓦斯含量技术和基于探采对比的煤层瓦斯 含量预测方法。 上述煤层瓦斯含量预测模型及方法均存在一定 的适用范围,其普遍适用性需要进一步研究。 针对 此,笔者建立了包含有 组瓦斯含量实例的数据模 型,采用全子集回归、随机森林( ,) 种特征选择方法,确定了最优的瓦斯含量参数组 合;利用高斯回归过程( , )、最小二乘支持向量机( , )、 梯 度 提 升 回 归 树 ( ,)以及极限 学习机( ,)等 种常 用经典机器学习算法,构建了多参数组合预测模型, 并采用判定系数()、归一化均方误差()、希 尔不等系数()、平均绝对误差()以及平均相对 误差()对模型预测性能进行综合评估,提升了瓦 斯含量预测模型的准确性和科学性。 瓦斯含量预测数据处理 瓦斯含量预测数据实例获取 以贵州某矿二采区 煤层为研究对象,该煤层 为煤与瓦斯突出危险煤层,类不易自燃。 煤层瓦 斯含量与埋深、煤厚、底板标高、主断层水平距离、顶 板岩性、底板岩性、褶皱、水分、灰分、挥发分、孔隙率 等因素有关,并在各类瓦斯含量预测中广泛采 用。 因此,笔者构建的煤层瓦斯含量预测指标 为表征测点煤层地质因素的埋深()、煤厚()、 底板标高()、与主断层水平距离()、顶板岩性 ()、底板岩性()、褶皱()以及表征煤层自身 特性的水分()、灰分()、挥发分()、孔隙率 (),数据见表 (由于篇幅所限,仅列出前后 组 数据),其中前 组作为训练集,后 组作为验证 集。 煤层瓦斯含量与各量化因素关系如图 所示。 由图 可知,煤层瓦斯含量与埋深、煤厚、底板 标高、与主断层水平距离、水分、灰分、挥发分及孔隙 率的线性判定系数较低( ),煤层 瓦斯含量与各因素不存在明显的线性关系。 表 煤层瓦斯含量及影响因素数据 序号 埋深 煤厚 底板 标高 与主断层 水平距离 顶板 岩性 底板 岩性 水分 灰分 挥发分 孔隙率 褶皱 瓦斯含量 ( ) 注根据煤层透气性,对顶板岩性以及底板岩性进行定量描述,透气性最好的粉砂岩用 表示,透气性最差的泥岩用 表示,细砂岩、泥质粉砂岩、 砂质泥岩、碳质泥岩、铝质泥岩分别用 、、、、 表示;对于褶皱,以取样点附近褶皱较发育的用 表示,不发育的用 表示。 中国煤炭行业知识服务平台 w w w . c h in a c a j . n et 年第 期煤 炭 科 学 技 术第 卷 图 瓦斯含量与各量化指标线性拟合示意 数据标准化处理 为确保模型预测效果,需在模型构建前对数据 进行预处理。 由于现有实例中选用的 个影响煤 层瓦斯含量的因素均是数值型数据,如果直接用原 始指标值进行分析,高数量级的指标在综合分析中 作用会加大,而低数量级的指标在综合分析中作用 就会减小。 为保证发挥各个因素作用,对其进行 零均值规范化( 标准化)处理,即对各因素 的数据集 ,,,经过式()式()标准化变 换,得到介于 的新序列,各因素新序列的数量 级相同,以减少不同因素数值量级之间差距对模型 的影响。 () ( ) () () 式中为原始序列,,; 为序列平均值; 为方差;为变换后新序列,,。 煤层瓦斯含量预测模型建立流程及初选 预测模型建立流程 煤层瓦斯含量预测模型建立流程如图 所示。 )样本数据处理。 对数据集进行标准化。 )融合模型初选。 采用特征选择算法获取不 同特征参数组合;利用不同有监督算法与特征参数 图 预测模型建立流程 组合,建立瓦斯含量预测模型。 )融合模型优选。 不同算法对瓦斯含量特征参 中国煤炭行业知识服务平台 w w w . c h in a c a j . n et 林海飞等基于特征选择和机器学习融合的煤层瓦斯含量预测 年第 期 数组合的预测性能不同,对验证集数据进行分析,选 择平均判定系数 的算法以及特征参数 组合,选择预测模型;在上述预测模型中,选择 且 的预测模型作为优化模型。 )融合模型验证。 对优化模型各组预测数据 取平均计算后得到预测值(),并采用验证集进行 对比分析。 预测模型初选 煤层瓦斯含量特征参数组合 研究表明,机器学习过程中过少的变量将导致 模型的低准确率,过多参量也不一定会增加模型准 确度,还容易导致过拟合;不同煤层瓦斯含量预测指 标在特征选择方法下称为特征参数,而不同特征参 数组合对各类机器学习算法敏感性有差异。 因此, 煤层瓦斯含量特征参数组合采用全子集回归以及随 机森林 种特征选择方法,根据特征的重要性或组 合效果选择出一系列特征子集。 全子集筛选是基于不同自变量的所有可能的组合 方式,对缩减后的变量组合通过最小二乘法进行拟合, 并在所有可能的模型中选择校正 大于 的模 型,特征选择结果如图 所示,即 种最优组合。 随机森林采用大量的决策树进行特征选择,将 每棵决策树得到的变量综合性进行综合分析,得到 最终的变量重要性排序,如图 所示。 在本例中, 根据均方误差及残差平方和,最终选择除主断层水 平距离、褶皱以及灰分外的 种因素。 图 特征选择各方法结果 经上述全子集回归法以及随机森林法对 种 影响煤层瓦斯含量的参数进行不同规律选择, 种特征参数组合见表 ,其中 为全子集 筛选, 为随机森林筛选。 “”代表该组合选 中的特征参数。 表 瓦斯含量特征参数组合 组合 瓦斯含量预测模型初选 笔者采用 种有监督学习算法对煤层瓦斯含量 数据集进行学习,其中包括高斯过程回归()、 最小二乘支持向量机()、梯度提升回归树 (),以及极限回归机()。 高斯过程回归() 对处理高维数、小样 本、非线性复杂问题具有很好的适应性,且泛化能力 强。 与神经网络、支持向量机相比,该方法具有易实 现、超参数自适应获取等优点。 最小二乘支持向量机()优化问题 的最终目的是得到优化模型参数,从而使 构建的线性决策函数不仅拥有良好的拟合性能,而 且模型泛化能力强。 梯度提升树() 是提升法的一种,其每 一次的计算是为了减少上一次的残差,在残差减少 (负梯度)的方向上建立一个新的模型。 该方法泛 化能力和表达能力较好,具有较好的可解释性和鲁 棒性,能够自动发现特征之间的高阶关系。 极限学习机() 是一类基于前馈神经网 中国煤炭行业知识服务平台 w w w . c h in a c a j . n et 年第 期煤 炭 科 学 技 术第 卷 络构建的机器学习方法,其特点是隐含层节点的权 重为随机或人为给定的,且不需要更新,学习过程仅 计算输出权重。 通过 种不同特征参数组合采用 种不同有 监督学习算法,构建了 种瓦斯含量预测模型,其 判定系数 见表 。 计算方法为 ( ) ( ) () 式中为真实值,,; 为预测值,,。 不同算法采用不同特征参数组合时模型的判定 系数 为 ,其中梯度提升回归树 ()表现最好,均值为 。 其次是最小二 乘支持向量机()算法,均值为 。 再 次为高斯过程回归(),均值为 以及极 限学习机(),均值为 。 梯度提升回归 树()和最小二乘支持向量机()对特 征参数的选择依赖性不强,不同特征参数组合下梯 度提升回归树()为 ,最小二 乘支持向量机()的 为 。 高 斯过程回归()以及极限学习机()在不同 特征参数组合下其 的波动较大,高斯过程回归 ()的 为 ,极限学习机()的 为 。 由表 可知,、、、、、、 、、、、、 等 种特征 参数组合的判定系数 平均值均大于 , 和 的判定系数 平均值均大于 ,即 和 两种算法在本例中无论 精度与波动性在何种参数组合下预测效果都比较理 想。 因此,初选得到瓦斯含量预测模型为 和 与上述 种特征参数的组合,共 个预 测模型。 表 不同算法采用不同特征参数组合时的判定系数 参数组合 各有监督学习算法判定系数 各个参数组合 均值 各个算法 均值 煤层瓦斯含量预测模型优选及验证 煤层瓦斯含量预测模型优选 对 种初步选择得到的预测模型的 以及 进行计算,计算公式如下 ( ) ( ) () ( ) () 综合考虑 以及 ,得到特征 选择与机器学习算法相融合的最优预测模型,如图 中国煤炭行业知识服务平台 w w w . c h in a c a j . n et 林海飞等基于特征选择和机器学习融合的煤层瓦斯含量预测 年第 期 所示。 由图 可知,最小二乘支持向量机( )中除 、 外均满足设定要求。 由图 可知,梯度提升树()中除 外其他特征组 合模型均满足设定要求。 通过上述方法可得到 组最优融合预测模型,包括 与 、、 、、、、、、、( 类), 与 、、、、、、 、、、、( 类)。 图 以及 风向玫瑰图 最优融合预测模型验证 通过验证集的 组煤层瓦斯含量进行验证,预测 结果评价指标见表 。 由表 可知,所选择的 种模 型对瓦斯含量的预测结果,,。 表 不同模型预测结果的评价指标对比 序列模型 ( ) 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 与 组合 通过式()、式()计算平均绝对误差()及平 均相对误差(),得到上述 种最优融合模型中 为 ,为 ,各模 型最大相对误差()均小于 。 ( ) () 中国煤炭行业知识服务平台 w w w . c h in a c a j . n et 年第 期煤 炭 科 学 技 术第 卷 ( )() 以 组验证集为例,对 种最优融合模型各组 预测数据取平均计算后,结果如图 所示,各评价指 标值如下 ( ) 由图 及各评价指标值可知,各评估指标均符 合笔者设定要求。 图 预测数据与原始数据对比 结 论 )基于全子集回归法和随机森林法 种特征 选择方法构建了 种瓦斯含量影响因素特征参数 组合集,其中采用全子集回归法得到 种,采用随 机森林法得到 种。 )不同算法与特征参数组合下的 种瓦斯含 量预测模型的 为 ,其中 平均值大 于 的算法有最小二乘支持向量机、梯度提升 回归树。 )最优融合预测模型包括 与 、 、、、、、、、、, 与 、、、、、、、 、、、 等 种;最终预测模型的 为 , 为 , 为 , 为 ,为 ,为 。 参考文献() 李成武,王义林,王其江,等直接法瓦斯含量测定结果准确性 实验研究 煤炭学报,,() , , , ,,() 马树俊,王兆丰,韩恩光,等瓦斯含量测定中取心管管壁温度 变化特性研究 煤炭科学技术,,() , , , , ,() ,,() 张子戌,袁崇孚 瓦斯地质数学模型法预测矿井瓦斯涌出量 研究 煤炭学报,,() , ,,() 张许良,单菊萍,彭苏萍 瓦斯含量及涌出量预测的数学地质 技术与方法 煤炭学报,,() , , , , ( ) 林海飞,高 帆,严 敏,等 煤层瓦斯含量 神经网络预 测模型及其应用 中国安全科学学报,,() , , , ,,() 汪吉林,翟建廷,秦勇,等 淮北许疃矿抽采后瓦斯含量损 失影响 因 素 分 析 及 预 测 煤 炭 学 报, , ( ) , , , , ,,() 魏国营,裴 蒙 基于 的煤层瓦斯含量预 测研究 中国安全生产科学技术,,() , ,,() , , , , , ,,() , , 中国煤炭行业知识服务平台 w w w . c h in a c a j . n et 林海飞等基于特征选择和机器学习融合的煤层瓦斯含量预测 年第 期 ,, 叶桢妮,侯恩科,段中会,等 郭家河煤矿回采工作面瓦斯涌 出量预测 西安科技大学学报,,() , , , ,, () 周鑫隆,汤 静,石必明,等 基于灰熵法的深部煤层瓦斯含 量影响因素分析及预测 煤田地质与勘探,,() , , , , ,() 周鑫隆,章 光,吕 辰,等 深部煤层瓦斯含量的差值 预测模型及其应用 安全与环境学报,,() , , , ,,() 谷 松,崔洪庆,冯文丽 基于灰色理论的小波神经网络对 瓦斯涌出量的预测 煤炭学报,,() , , ,,() , ,, 姜家钰,张玉贵,谢向向,等 基于探采对比的煤层瓦斯含量 分析及预测 安全与环境学报,,() , , , ,,() 颜爱华 煤层瓦斯含量多源数据分析及其预测研究 北 京中国矿业大学(北京), 李浩威 姚家山 号煤层瓦斯赋存规律及层次分析法在瓦 斯灾害预测中的应用 徐州中国矿业大学, 黄 超,龚惠群 基于判定系数和趋势变动的时间序列逐段 线性回归 统计与决策,,() , ,,() 金 鑫,王铁行,张 玉,等 计算黄土卸荷湿陷量的模量折 减法研究 岩石力学与工程学报 , , , 徐涵秋,孙凤琴,徐光志 高分五号高光谱 和多光谱 传感器数据的交互对比 武汉大学学报(信息 科学版) , , , 张智韬,韩 佳,王新涛,等 基于全子集分位数回归的土 壤含盐量反演研究 农业机械学报,, () , , , ,, () , , , () ,, , ,, , , , ,() , , , () , , , , , , , 中国煤炭行业知识服务平台 w w w . c h in a c a j . n et
展开阅读全文