资源描述:
关联规则挖掘在煤矿安全监测中的应用 关联规则挖掘在煤矿安全监测中的应用 姜丽莉1,李峰2* 作者简介姜丽莉1985-,女,硕士研究生,主要研究方向数据挖掘与知识发现. (1. 中国矿业大学计算机学院,徐州 221116; 5 2. 广播电视局数据管理中心,新沂 221400) 摘要为了从大量的煤矿安全监测数据中获取有用的知识,来指导煤矿安全预警工作,本文 将关联规则挖掘算法应用于安全监测数据的数据挖掘。根据数据的特点,对数据进行了预处 理后,采用了多维关联规则挖掘算法。文章设计并实现了安全监测数据的关联规则挖掘系统。 通过该系统,用户在设置最小支持度和最小置信度阈值后,就可以挖掘出关联规则。 10 关键词关联规则;多维;安全监测 0 引言 自从1993 年Agrawal 等人引入关联规则的挖掘,频繁模式挖掘引起了人们极大的关注。 IBM 的Quest 项目组,Stanford 大学的MIDAS 项目组,Simon Fraser 大学的智能数据库系统 30 实验室,还有许多其他的研究机构,都对频繁模式的挖掘进行了深入的研究,取得了不少研 究成果。到目前为止,主要的研究方向有多循环方式的挖掘算法、增量式更新算法、基于约 束的关联规则的挖掘、并行关联规则的挖掘算法、多层关联规则的挖掘研究、基于KDD 内 在机理的关联规则算法的研究等[1]。 煤与瓦斯突出 简称突出 是煤矿安全中最为严重的自然灾害之一。它是煤矿井下含瓦 35 斯煤体在极短的时间内,从煤壁内部向采掘空间突然喷出大量煤和瓦斯的动力现象。突出物 会造成埋人,破坏设施,突出的瓦斯使人窒息或引起瓦斯爆炸,造成严重的人员伤亡和矿井 损毁事故。我国煤与瓦斯突出矿井数量多,分布范围广,并且突出次数频繁。目前随着矿井 开采深度的增大,开采地质条件的复杂,突出带来的深部矿井安全问题将愈加明显[2]。 近几年计算机技术的迅猛发展,模糊数学、人工神经网络、突变学等理论的日趋成熟, 40 微观、宏观探测、治理技术与理论方法研究的显著进展,均为煤矿瓦斯预测预报的研究奠定 了坚实的工作基础。本文将关联规则挖掘技术应用于煤矿安全监测数据,实现了基于煤矿安 全监测数据的挖掘系统,实现了关联规则挖掘工作。 1 关联规则的相关概念 关联规则数据挖掘(简称关联规则挖掘)就是从大量的数据中挖掘出有价值的描述数据 45 项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这 些数据中挖掘相应的关联知识越来越有兴趣。例如从大量的商业交易记录中发现有价值的 关联知识就可以帮助进行商品目录的设计、交叉营销或帮助进行其它有关的商业决策。 从形式上看,关联规则是一个满足支持度和置信度阈值的、只包含蕴含连接词的一介谓 词逻辑公式,形如“规则前件⇒ 规则后件[支持度,置信度]”,其中规则的前件、后件都是 50 项集[3]。关联规则反映了项集之间的频繁模式、关联、相关性或因果关系,它是隐藏在关系 型数据库中的一种特殊的、有价值的知识。 关联规则定义如下假设1 2 m I{i ,i ,,i }是m个不同项目的集合,给定一个交易数据库 D (即一个交易集合), D 中的每一元素(交易) T 是I 中一组项目的集合,即T⊂I。关 联规则表示为X⇒Y,其中X⊂I,Y⊂I,并且X∩Y ∅ 。X 表示为规则的前件或者 55 前提(antecedent),Y 为规则的后件或结果(consequent)。关联规则的挖掘就是要发现所 有满足用户定义的最小支持度和最小置信度的关联规则,这些关联规则的支持度和置信度分 别不小于最小支持度和最小置信度。 2 多维关联规则的研究 2.1 多维关联规则的分类 60 关联规则挖掘问题扩展到关系数据库后,涉及对多个属性或谓词的规则挖掘,即多维关 联规则挖掘。多维关联规则主要分为两类[4] (1)维间关联规则如果每个谓词在规则中只出现一次,则称为具有不重复谓词,此 时挖掘出的关联规则称为维间关联规则。 例如Agex,“25,35”,Incomex,“3000,4000” ⇒ Buysx,“计算机”[0.2,0.8] 65 (2)混合维关联规则如果某些谓词在规则中出现多次,则成为具有重复谓词,此时 挖掘出的关联规则称为混合维关联规则。 例如Agex,“25,35”,Buysx,“数码相机” ⇒ Buysx,“计算机”[0.2,0.8] 2.2 多维关联规则挖掘的一般方法 对于多维关联规则的求解,遵循的基本思路是将其转换为经典的布尔关联规则进行挖掘 70 [5]。 数据库属性可能是分类的或量化的[6]。分类属性具有有限个不同值,值之间无序。分类 属性也称标称属性,因为它们的值是“事物的名字”,例如品牌、职业、产地等。量化属性 是数值的,并在值之间具有一个隐含的序,例如年龄、价格、薪酬等。 在进行多维关联规则的挖掘时,对类别属性,原先的算法都可以使用,而对于量化属性, 75 则需要进行一定的预处理。将数值属性离散化,即将数值属性的取值映射到一个个区间上去, 使得数值属性的取值数目相对于样本集足够小,每个区间对应着一个离散的符号,具有布尔 型属性[7]。常见的数值属性离散化方法有等宽区间法、等频区间法、区间归并法、最大熵方 法、聚类分析方法等等。 将数值属性离散化以后,就可以用布尔挖掘算法,进行挖掘关联规则。但是,与单维布 80 尔关联规则不同的是,多维数据关联规则挖掘的不是频繁项集,而是频繁属性集或频繁谓词 集[8]。K 谓词集是包含k 个合取谓词的集合。例如 “Agex,“25,35” ∧ Buysx,“数 码相机” ∧ Buysx,“计算机””是一个3 谓词集。 3 面向安全监测数据的关联规则挖掘 本文涉及的煤矿数据是某个煤矿在一段时间内,由传感器获得的瓦斯浓度、温度、流量、 85 负压等记录,原始数据如图1 所示 图1 监测数据定量表 Fig.1 Quantitative monitoring data sheet 该数据共有5 个维度,而本文要进行的关联规则挖掘是在浓度、温度、流量、负压这4 90 个维度中进行。这4 个维度中的数据均为数值属性。为了进行布尔关联规则挖掘,需将这4 维数据离散化,转化成类别属性。 该数据经过“云理论”等方法预处理以后,可以将定量表转化为定性表,将表中除“时 间”以外的其它四个字段的属性值离散化为三个,分别为“大”、“中”、“小”。部分数 据如图2 所示。 95 图2 监测数据定性表 Fig.2 Qualitative monitoring data sheet 本系统要进行的工作为挖掘维间关联规则,即由表中的频繁属性集获得浓度、温度、流 100 量和负压不同属性之间的关联关系。 系统采用VC 6.0 作为编译器,C作为开发语言,SQL Server 作为数据库,并采用 了ADO 访问数据库技术。 取最小支持度为0.2,最小置信度为0.6,可以得到程序运行界面,如图3 所示。 105 图3 系统运行界面 Fig.3 System operation interface 利用此系统,当取支持度为0.3,置信度为0.8 时,可以产生5 条规则 流量(x,“中”)⇒ 浓度(x,“中”)[0.47,0.85]; 110 流量(x,“小”)⇒ 负压(x,“小”)[0.32,0.94]; 负压(x,“小”)⇒ 流量(x,“小”)[0.32,0.89]; 负压(x,“大”)⇒ 流量(x,“中”)[0.32,0.86]; 温度(x,“中”),流量(x,“中”)⇒ 浓度(x,“中”)[0.32,0.82]; 这5 条规则在客观上是比较符合实际情况的,例如,当流量小时,负压小的可能性就较 115 大。 4 总结 关联规则挖掘是一种重要的数据挖掘方法。关联规则是指表示数据库中一组对象之间某 种关联关系的规则。本文将关联规则挖掘算法应用于某煤矿的安全监测数据,设计并实现了 关联规则挖掘系统,并挖掘出了有意义的规则。总之,搞好煤矿安全管理,将先进的科学技 120 术应用于开采过程,对减少人员伤亡、国家经济损失和能源浪费,维护社会稳定、促进经济 发展、建立和谐社会具有重要的作用。
展开阅读全文