资源描述:
万方数据 万方数据 万方数据 万方数据 万方数据 万方数据 目 录 I 目 录 1 绪论 ........................................................................................................................................ 1 1.1 本课题的研究背景及意义 ......................................................................................... 1 1.1.1 研究背景 .......................................................................................................... 1 1.1.2 研究意义 .......................................................................................................... 2 1.2 本课题研究领域国内外的研究现状 ......................................................................... 2 1.2.1 数据挖掘国内外研究现状 .............................................................................. 2 1.2.2 机电设备状态预测方法国内外研究现状 ...................................................... 3 1.2.3 机电设备健康状态评价方法国内外研究现状 .............................................. 5 1.3 本文的主要研究内容 ................................................................................................. 6 1.4 技术路线 ..................................................................................................................... 7 2 煤矿机电设备运行状态预测建模 ........................................................................................ 8 2.1 数据挖掘技术简介 ..................................................................................................... 8 2.1.1 时序数据挖掘技术 .......................................................................................... 9 2.1.2 机电设备运行状态数据特征分析 .................................................................. 9 2.1.3 聚类挖掘算法的适用性分析 ........................................................................ 10 2.2 聚类挖掘算法建模 ................................................................................................... 10 2.2.1 KMeans 挖掘算法建模 ............................................................................... 11 2.2.2 距离的度量 .................................................................................................... 11 2.2.3 聚类效果评估 ................................................................................................ 12 2.3 煤矿机电设备运行状态预测方法简介 ................................................................... 12 2.3.1 煤矿机电设备运行状态预测技术简介 ........................................................ 12 2.3.2 煤矿机电设备运行状态特点分析 ................................................................ 13 2.4 单一挖掘预测模型建模 ........................................................................................... 14 2.4.1 GM1,1模型建模 ........................................................................................... 14 2.4.2 ARIMA 建模 ................................................................................................... 16 2.4.3 BP 神经网络建模 ........................................................................................... 17 2.5 模型验证 ................................................................................................................... 20 2.5.1 GM1,1模型验证 ........................................................................................... 20 2.5.2 ARIMA 模型验证 ........................................................................................... 22 2.5.3 BP 神经网络模型验证 ................................................................................... 24 2.6 本章小结 ................................................................................................................... 26 3 基于双 MapReduce 的数据挖掘预测建模 ......................................................................... 27 3.1 MapReduce 简介 ........................................................................................................ 27 万方数据 目 录 II 3.1.1 MapReduce 概述 ............................................................................................. 27 3.1.2 MapReduce 工作流程 ..................................................................................... 27 3.2 基于双 MapReduce 的数据挖掘预测框架设计 ...................................................... 28 3.3 基于 AGB 组合预测模型的煤矿机电设备运行状态建模 ..................................... 29 3.3.1 平均值权重法 ................................................................................................ 29 3.3.2 方差-协方差权重法 ....................................................................................... 29 3.3.3 最优矩阵法 .................................................................................................... 30 3.3.4 AGB 组合预测建模 ........................................................................................ 30 3.4 基于双 MapReduce 的煤矿机电设备数据挖掘预测建模 ...................................... 31 3.4.1 挖掘预测模型建模 ........................................................................................ 31 3.4.2 Map 过程设计 ................................................................................................. 33 3.4.2 Reduce 过程设计 ............................................................................................ 33 3.5 本章小结 ................................................................................................................... 34 4 基于劣化度的煤矿机电设备健康状态评价 ...................................................................... 35 4.1 煤矿机电设备健康状态评价 ................................................................................... 35 4.1.1 健康状态评价指标选取 ................................................................................ 35 4.1.2 健康状态等级描述 ........................................................................................ 37 4.3 劣化度及其计算方法 ............................................................................................... 37 4.3.1 劣化度定义 .................................................................................................... 37 4.3.2 劣化度的计算 ................................................................................................ 38 4.4 层次分析法 ............................................................................................................... 38 4.4.1 单层次分析法 ................................................................................................ 38 4.4.2 多层次分析法 ................................................................................................ 40 4.5 设备健康状态评价模型建立 ................................................................................... 41 4.6 实验验证 ................................................................................................................... 42 4.7 本章小结 ................................................................................................................... 44 5 实验验证与分析 .................................................................................................................. 45 5.1 实验平台搭建 ........................................................................................................... 45 5.1.1 硬件配置 ........................................................................................................ 45 5.1.2 软件配置 ........................................................................................................ 46 5.2 挖掘预测模型验证 ................................................................................................... 47 5.3 数据挖掘预测模型并行化实验及分析 ................................................................... 49 5.4 本章小结 ................................................................................................................... 51 6 结论与展望 .......................................................................................................................... 52 万方数据 目 录 III 6.1 结论 ........................................................................................................................... 52 6.2 展望 ........................................................................................................................... 52 致谢 .......................................................................................................................................... 54 参考文献 .................................................................................................................................. 55 附录 .......................................................................................................................................... 60 万方数据 1 绪论 1 1 绪论 1.1 本课题的研究背景及意义 1.1.1 研究背景 伴随着科学技术的发展,我国煤矿企业的规模日益扩大,这对其生产和管理就提出 了更高的要求。在最大可能保证产出的条件下,如何实现高可靠性、低风险性和安全生 产,这对于煤矿企业来说是个大挑战。而煤矿企业的设备管理作为煤矿企业生产管理的 一个重要组成部分,其煤矿机电设备管理水平会直接影响到企业的生产能力、生产率以 及能耗等。设备故障的意外发生,通常也会增加企业的设备维护的费用。对于煤矿企业 来说,机电设备发生故障后直接以及间接所产生的费用要远远大于事故后维修所产生的 费用。 现阶段煤矿企业是通过对煤矿机电设备状态和工作环境的实时监测对设备进行维 护,通过安装在煤矿机电设备上的传感器,去获得该机电设备的实时数据,将数据进行 进一步的处理分析,利用预测技术对其进行煤矿机电设备的预测。伴随着煤矿机电设备 各部件复杂性的增加,对煤矿机电设备的运行状态预测分析较诊断来说其难度更高。 由于煤矿机电设备的运行状态数据量大且数据中混杂着不真实数据[1],直接进行分 析会导致分析结果偏差较大,尤为重要的是,煤矿机电设备的状态变化规律往往“隐喻” 在这些复杂的数据中,需要深入研究此类大数据下的机电设备状态信息的智能表征,才 能充分发挥数据价值。通过国内外学者的研究分析得到,现阶段的煤矿机电设备状态预 测通过神经网络、灰色模型、支持向量机、人工神经网络、灰色模型、隐马尔可夫模型、 支持向量机等算法模型去研究煤矿机电设备运行状态数据,从其中去挖掘特征信息,也 有少人数去通过数据挖掘去研究分析状态数据。这些研究主要集中在电力设备、机械设 备及其船舶电子方面,由于煤矿机电设备的重要性和复杂性不同以常规设备,外加煤矿 井下的复杂环境,导致煤矿机电设备的运行状态数据中存在不真实的数据,不能直接对 煤矿机电设备的运行状态数据进行分析处理,因此通过数据挖掘和分析设备当前的运行 状态数据,预测出煤矿机电设备未来的健康状态,为煤矿企业提供设备高效准确的运行 状态分析,使其更好的服务于生产。 本文依托国家自然基金项目面上项目“多源异构数据驱动的综采设备群健康评价与 多目标预知维护决策”进行研究, 旨在对煤矿机电设备及设备群进行健康维护, 在本团队 设备运行大数据清洗及分布式存储研究的基础上,建立了煤矿机电设备关联数据挖掘预 测框架,针对传统的数据挖掘效率低的问题,提出了一种基于双 MapReduce 的设备运行 万方数据 西安科技大学全日制工程硕士学位论文 2 状态数据挖掘预测模型。通过挖掘模型对设备运行数据进行深度剖析,寻找出其中潜在 的价值信息,进一步提出了一种基于 AGB 组合的设备运行状态预测模型,解决了单一 预测模型方法预测精度低、适用范围小的问题。针对煤矿机电设备健康状态量化难、受 主观影响较大的问题,提出了一种基于劣化度的煤矿机电设备健康状态评价模型,从而 可以直观的反映出煤矿机电设备的健康等级,对机电设备的预防性维护有着极其重要的 指导意义。 1.1.2 研究意义 本文主要围绕煤矿机电设备运行状态数据预测建模、 基于双 MapReduce 的数据挖掘 预测建模、基于劣化度的煤矿机电设备健康状态评价三部分进行研究。其研究内容对于 企业设备数据挖掘分析、预测维护及健康评价管理方面有着极其重要的意义,推动煤矿 企业在智能化预防性维护上的发展,主要表现在以下三个方面 1 提高企业的设备数据质量。设备数据采集时会受到环境干扰以及传输中途出现 接收不及时出现的一系列问题,从而导致数据的质量较差,若直接将原始的数据进行分 析,则会导致分析结果不准确,从而对设备的健康状态预测、评价等造成偏差。通过设 备运行状态数据的挖掘,提高机电设备运行状态数据的质量,准确地对机电设备未来的 运行状态进行预测、评价,便于企业对机电设备进行状态维护。 2 提高企业的数据处理速度。通过对服务器的 KVM[2](Kernel-based Virtual Machine)技术,完成对虚拟机的虚拟化,搭建分布式的大数据存储、分析、可视化生态 链使得企业可以更加方便、快捷的对其进行安装、部署、应用及维护。解决了传统的单 机分析平台运算效率低、 数据存储可靠性差等问题, 提高了企业对数据的分析处理效率。 3 提高企业对煤矿机电设备的未来运行状态预测评价能力。通过对挖掘出的数据 进行建模预测分析,获得该机电设备未来的运行状态数据,并对设备未来的健康状态进 行评价,解决了传统的停机维护所产生的经济损失大的问题。用来指导企业对设备的维 护检修,减少设备由于故障停机带来的经济损失,保障企业工作任务的顺利开展。 1.2 本课题研究领域国内外的研究现状 1.2.1 数据挖掘国内外研究现状 数据挖掘技术是在 20 世纪 80 年代后期出现的一种技术,主要为从海量数据分析出 隐含知识的方法,现已发展为一门融合人工智能与机器学习等多理论的学科。 国内方面,起步相对较晚,但是现在处于发展时期。1993 年首次由国家自然基金委 员会对其展开研究,主要从事此方面的研究的人员都集中在高校、研究所。数据挖掘最 初是针对应用的,不只是对数据库信息的检索,而是对数据进行分析后所发现的隐含关 万方数据 1 绪论 3 系,最终达到用已有的历史数据对未来的活动进行预测。Xie C 等人针对采集的配电变 压器的运行数据及文本数据,提出了一种基于多源信息融合的配电变压器实时状态评估 方法,通过基于 HMM 的文本预处理和相对论的机器学习,文本挖掘技术实现了从变换 器故障和缺陷消除记录文本中提取关键信息进行状态评估[3]。杨虹等人针对传统的输变 电设备故障的诊断方法易受专家主观影响的缺点, 对近 10 年的油浸式变压器的故障案列 使用 k 均值聚类算法进行了挖掘, 已实现更准备的故障诊断[4]。 Zhigang M 基于数据挖掘 技术的地铁设备维修研究。针对地铁系统维护难的问题,研究了通过维修记录及监控日 志去挖掘数据,用来做预防性维护[5]。Kim J C 针对个人健康问题,提出了一种基于相似 性的数据挖掘来预测用户健康状态的方法[6]。除此之外,数据挖掘还应用在制造业领域。 在制造业中,数据挖掘主要用于设备的状态分析、故障诊断与预测、以及健康状态 评价等。江秀臣等人对电力设备状态大数据分析进行了研究,指出了现在科研和高效都 积极致力于高性能的大规模的数据集挖掘算法的研究,并通过大数据存储框架的 MapReduce 并行计算模型实现[7]。张珂珩等人对配电网历史数据进行了深入的挖掘,通过 聚类算法、线性回归分析等建立了设备状态诊断模型与评价体系[8]。高文海等人建立了 基于物联网与数据挖掘相结合的起重机运行状态预警系统,使用评价指标对运行状态数 据进行挖掘[9], Zhang D[10]等人提出了一种基于数据挖掘的设备状态智能监测算法, 通过 对设备的历史数据的聚类分析,对设备运行状态进行预测。Yiming Z[11]等人提出了用于 分析有缺陷的特高压反应堆多源在线监测数据的时序和相关性,为分析电力设备的状态 和缺陷提供了新的思路。Zhang Y[12]等人基于新能源发电厂运行状态下信息数据的多样 性,复杂性和海量性,设计了故障诊断方法的整体过程,包括聚类分析,故障规则挖掘, 故障建模等数理统计理论。谢刚等人通过分析设备的实时状态数据,运用相似性预测算 法及 k-means 算法对设备实时数据进行挖掘,从而获取实时数据所蕴含的知识[13]。宋杰 等人研究了并建立了设备资产管理系统数据挖掘规则,实现了故障的智能检修与分析 [14]。 1.2.2 机电设备状态预测方法国内外研究现状 煤矿机电设备运行状态预测主要分为三类基于模型的状态预测、基于知识的状态 预测、基于数据的状态预测。由于基于模型与知识的状态预测需要依靠充足的数据量及 专家经验数据库, 因此, 基于模型和知识的状态预测在经济性和实用性方面会受到限制。 基于数据的状态预测是通过从设备的健康状态数据中,通过数据挖掘等先进方法,去提 取有效的信息,在已有的大数据的基础上预测设备的未来状态,其方法已成为现在研究 的热点,也是本文的研究重点。 常用的预测方法主要为包括人工神经网络、灰色模型、支持向量机、时间序列模型 等。其中人工神经网络模型非线性映射能力较好、具有自适应、自学习能力较强,但是 万方数据 西安科技大学全日制工程硕士学位论文 4 容易陷入局部最优等问题;而灰色模型与隐马尔科夫模型在预测中具有预测精度高,适 用范围广的特点,特别适合于设备特征信息较为完整的情况。除此之外,还有基于统计 学的预测技术,常见方法为曲线拟合、时间序列分析法、贝叶斯理论、逻辑模糊等方法, 但是由于曲线拟合原理简单导致其预测精度比较低,一般不常用。而时间序列分析法、 贝叶斯理论[15]、逻辑模糊等预测方法各有所长。 马顺南等人结合测控设备状态异常出现的分布规律,建立了离散型状态变量预测模 型[16]。 季云[17]等人论述了基于隐马尔可夫模型及其改进方法隐半马尔可夫模型的机械设 备故障预测方法,李光耀[18]等人提出了一种 AR 模型和卡尔曼滤波模型组合的机械设备 状态趋势预测方法, 张钱龙[19]等人提出了基于支持向量机的设备状态趋势预测方法,李祥 [20]等人针对煤炭的热值预测问题,提出基于主成分与线性回归分析的预测方法,薛黎明 [21]等人提出了基于支持向量机的能源消费碳排放预测。下图为各单个预测模型的对比 表表 1.1 单一单一预测模型对比预测模型对比 预测方法 优点 不足 适用范围 时间序列模型 模型简单, 要求数据由 明显的趋势, 常用于线 性子系统 对非线性系统不适用, 预测精度较差 主要适中短期预测 灰色预测模型 预测精度高、 计算工作 量小、 不需要大量样本 且样本不需要有规律 性分布 对历史数据依赖性比 较强, 针对于中长期预 测、误差偏大 适合做中短期预测 神经网络模型 能够进行多参数、 多步 预测, 且动态适应能力 强 算法的收敛速度较慢、 输入变量与隐含层节 点数难以确定, 易出现 局部最小化问题 适合非线性复杂系统 SVM 预测模型 属于小样本非线性预 测、有较好的鲁棒性 对于大规模训练样本 难以实施, 不能用于多 分类问题 适用于短期预测 卡尔曼滤波模型 计算量小、 预测精度高 目标数据长时间缺失 会造成目标跟踪丢失 常用于短期预测, 适用 多特征值描述预测 马尔科夫预测模型 预测效果良好,误差 低,数据训练时间短 不适合于中长期预测 适用于设备特征信息 较为完整的情况, 不适 于中长期预测 万方数据 1 绪论 5 但是由于单一模型的预测精度差,适用范围小,因此组合模型预测方法称为了研究 的新方向。 Tianshan G 等人[22]采用中值滤波方法对初始故障数据进行预处理, 引入“断层 分界点”和“故障数据分区”的两个概念, 并建立分阶段拟合模型基于灰度线性回归组合模 型到模拟的变电站故障率的趋势设备,Li L[23]等人为提高风电场的精度,提出了基于时 间序列模型与 RBF 神经网络的线性组合模型,Yan H[24]等人针对单一预测模型误差的显 着波动和线性组合预测模型的局限性,提出了一种基于多属性决策和支持向量机的风电 预测非线性组合模型,Shao Y[25]等人针对设备故障预测的难点,建立了基于灰色 GM (1,1)模型和 LRM 结合有效性原理的新模型,张施令[26]等人针对电力变压器中的溶解 性气体,提出了基于小波神经网络、灰色神经网络、支持向量机的组合预测模型来揭示 电力变压器的运行状态,杨奕飞[27]等人针对船舶动力设备监测样本少、数据特征呈非线 性预测难等问题,提出了基于隐形马尔科夫与支持向量回归组合模型的设备状态预测方 法,邓力[28]等人针对复杂装备健康状态预测难的问题,提出了基于相似度评估和相关向 量机结合的预测方法,从而完成对装备健康趋势的预知,张春露[29]等人提出了 ARIMA 时间序列模型与 BP 神经网络组合的预测模型,并在铁路客座率上进行了应用研究,张 栋梁[30]等人针对电力负荷值预测精度低的问题,提出了一种基于马尔可夫链与灰色组合 预测模型的中长期预测方法,程津[31]等人提出了一元线性回归、时间序列模型与灰色模 型等组合的预测模型,对电力负荷进行预测。 通过文献得知,单一模型在预测精度和适用范围方面有较大限制,因此研究方向的 侧重点在组合预测模型。但是组合模型并不是任意模型之间的相互组合,如何去将几个 单一模型进行有效的结合,是组合预测模型的关键。 1.2.3 机电设备健康状态评价方法国内外研究现状 煤矿机电设备作为煤矿开采的关键设备之一,其运行状态直接对矿井下的生产力有 着重要影响。其健康状态指在规定的条件或时间内,设备能够保持一定可靠性和维修性 水平,并能够完成预定功能的能力[32]。常用的煤矿机电设备健康状态评价方法有神经 网络法[33]、贝叶斯网络法[34]、层次分析法[35]、模糊评价法。近年来很多专家学者对机 电设备[36]、大型装备[37]、电力设备方面[38]应用进行了研究,但是由于煤矿的工作环境 特殊且多属性、设备多层次结构难以量化评价,且评价结果易受主观影响,现有的研究 不适用于煤矿机电设备健康状态评价。 Xia T[39]等人提出了一种基于模糊集和 SVM 的健康度评估算法实现故障状态评估方 法。Yaogang H[40]等人针对确定性权重的评价方法难以适应大量风电机组特征且相互关 系不明确的问题, 提出了一种基于多种证据评估风电机组健康状况的方法。 Feng-Xia Z[41] 等人建立了基于模糊综合评判的轨道电路设备健康指数模型,李二霞等人针对配网检修 容易忽视设备状态等问题,提出了一种基于设备运行状态评价的检修计划优化模型 万方数据 西安科技大学全日制工程硕士学位论文 6 [42]。贺川双等人建立了电力设备运行状态的综合评价模型,从而实现了电力设备异常 状态的快速评价[43]。Zhang H 等人提出了一种基于卡尔曼滤波器的组件级设备的可靠性 健康状态估计方法[44]。吴俊杰等人针对智能变电站二次设备缺乏全面有效的评价方法, 建立了模糊综合平法模型[45]。陈翔宇等人建立了电力设备状态评价权重修正模型,通过 多元线性回归模型,求解出了修正后的理论权值[46]。王浩鸣等人针对设备动态状态描述 难的问题,提出了一种动态可靠性评价方法,实现了对配电网的动态可靠性评估[47]。周 安美等人针对风电企业设备数据分散等问题,提出了基于多源异构信息融合方法来实现 设备健康状态的多准则评价[48]。吕明等人将建立了基于设备点检与设备运行状态的定期 评价模型[49]。 综上所述,目前煤矿机电设备健康状态评价存在的问题(1)煤矿机电设备健康状 态评价是一个多属性、多层次评价,受主观影响较大,且各部件权重难确定。 (2) 设备 健康状态是一个动态性评价,设备健康状态评价是一个持续的过程,必要时需要通过提 前预测健康状态来确定设备未来是否完成任务。3现阶段的煤矿机电设备的健康评价 是根据已发故障的特征信号来进行健康状态评价的判断,在实际的生产中,样本数据相 对较多且比较复杂,其中有价值的故障数据相对较少[50-52]。如果能根据设备过去的运行 状态数据对运行状态数据对其进行故障预测或健康状态评价,对煤矿企业来说意义重 大。因此,如何构建煤矿机电设备的层级结构模型,通过监测数据去量化描述煤矿机电 设备的健康状态,是亟待解决的问题。 1.3 本文的主要研究内容 针对煤矿机电设备的运行状态数据量大,且数据质量低的问题,提出一种数据挖掘 框架,建立基于双 MapReduce 的机电设备运行状态数据挖掘模型;针对传统的设备停机 维护效率低、维护费用高等问题,提出一种基于 AGB 组合预测模型对设备未来的运行 状态进行把控;针对机电设备未来的运行状态评价量化难、评价结果受主观性影响等问 题,提出一种基于劣化度的煤矿机电设备健康状态评价方法。具体研究内容如下 1 以煤矿机电设备的监测数据为基础,以采煤机为研究对象,以采煤机的监测
展开阅读全文