资源描述:
2062020 年第 6 期 基于配置管理与 Lucene 全文检索的企业知识 系统应用研究 赵慧杰 1 魏永启1 姜进成2 (1. 兖州煤业股份有限公司,山东 济宁 273500; 2. 兖矿集团有限公司信息化中心,山东 济宁 273500) 摘 要 本文研究提出利用配置管理与 Lucene 全文检索的技术,开发了基于 SOA 架构的云计算分析平台,通过兖州煤 业股份有限公司的实际应用,对实现企业内部的知识共享、提高全员生产技术水平具有重要意义。 关键词 配置管理 Lucene 全文检索 企业知识系统 中图分类号 TP319 文献标识码 A doi10.3969/j.issn.1005-2801.2020.06.074 Research on the Application of Enterprise Knowledge System based on Configuration Management and Lucene Full-text Retri Zhao Hui-jie1 Wei Yong-qi1 Jiang Jin-cheng2 1.Yanzhou Coal Mining Company Limited, Shandong Jining 273500; 2. Yankuang Group Ination Center, Shandong Jining 273500 Abstract This paper studies and proposes to use the technology of configuration management and Lucene full-text retri to develop a cloud computing analysis plat based on SOA architecture. Through the practical application of Yanzhou Coal Industry Co., Ltd., it is of great significance to realize knowledge sharing within the enterprise and improve the production technology level of the whole staff. Key words configuration management Lucene full-text retrieva enterprise knowledge system 收稿日期 2020-03-17 作者简介 赵慧杰(1978-),女,工程师,2016年1月毕业于山东 科技大学机械设计制造及其自动化专业,大学,在兖州煤业股份有限 公司从事科技管理工作。 企业管理与科学发展 1 技术资料管理现状 1.1 矿企信息化程度不高 煤矿企业管理者没有掌握丰富的信息化理论, 企业内缺乏先进的信息化设备,信息化设备的应用还 停留在初级阶段。煤矿企业的办公室内并未实现人手 一台电脑,资料的整理和存储多通过资料柜来实现, 大量堆放的资料导致文件不方便查阅,加剧了企业 的管理难度,各个煤矿的信息化建设严重受阻。 1.2 技术资料“孤岛”现象 在煤业公司日常管理中不难发现,下属煤矿企 业各大部门尚未制定出科学的资料管理机制,在各 项业务的开展中使用了不同的信息系统,由于衔接 性不强以致于办公效率不高,且增加了整个煤矿的 运营成本。 1.3 检索手段单一 在当前所创建与实施的文件系统中,检索指的 是文件的名称。在检索的过程中一些制式文件的命 名都会被批次量地检索出来,在实际的查阅过程中 是极不方便的。尽管大部分系统都设置了检索要求, 如创作者、建立的时间等,但是也无法从根本上提 升检索的效率。 2 以 LUCENE 技术实现企业文档全文检索技术 Lucene 并非是一个全文检索引擎,而是一个开 放源代码的全文检索引擎工具包,是由 Apache 软 件基金会创建的子项目,具备索引和查询等功能。 Lucene 提供的这个实用性较强的工具包,主要是便 于目标系统发挥全文检索的功能。Lucene 所提供的 应用程式接口,具有强大的搜寻功能。在开发 Java 的过程中,Lucene 这一工具的开源代码并不收费。 google,baidu 等搜索引擎所建立的索引库主要 使用的是超链分析技术、关键词检索技术等,与煤 矿生产标准相比这些技术并不达标。所以,要在结 2072020 年第 6 期 合上述技术的基础上,综合联系煤业公司的行业性 质及文档中检索技术的使用状况,从而深入地研究 联想、查找或拆分关键词的相关方法,最终实现公 司内部检索技术的优化与升级。 2000 年,Doug Cutting 在结合 Java 的基础上正 式开发了 Lucene 这种信息搜索库,其性能卓越, 伸缩性强。 Lucene 以倒排表为参考依据,能够在较短的时 间内快速地找到文本。在底层通过分段式存储,可 让其在读写的过程中避免锁的产生,优化了读写的 功能。 (1)Lucene 的底层存储格式 Lucene 的底层存储格式如下图 1 所示,其是 由两大部分构成,具体是词典、倒排序。前者为 Term 的集合,而后者则是词典中的 Term 指向的文 档链表的集合。对于 Lucene 来说,这两大数据结构 具有十分重要的作用,是实现高效检索的前提条件。 词典和倒排表的存储并非是一起的,而是分开 进行。在倒排表中所存储的信息内容包括文件名、 文件的位置等。 在词典中只要找到 Term,Lucene 的查找就成 功了一半,之后结合 Term 可得到文档链表,而按 照查询要求操作链表,能够获得所需的内容。 图 1 Lucene 的底层存储格式示意图 (2)Lucene 读写流程 图 2 为 Lucene 读写流程示意图,虚线箭头代表 的是写索引的流程,实线箭头代表查询的流程。 图 2 Lucene 读写流程示意图 3 基于配置管理与 Lucene 全文检索的企业知识 系统 (1)集中的文档存储 煤业公司为职员提供一个统一的文档存储库, 以实现对文档的分类整理和备份。平台的文件管理 系统还可以为其他业务系统的合并提供重要的支 撑,同时还可统一管理煤业公司其他业务系统所产 生的数据。 (2)灵活的技术文档修订与审批流程 在编辑好技术文档以后,需结合兖矿的管理制 度要求来签收、审核与保存。文档需现在持有者发 起会签,之后由相关人员来进行审批。文档管理系 统可自动使用 IM,以高效地展开具体业务。 (3)文档归档 在编写文档和修订文档的工作完成以后,煤业 公司员工可结合相关要求或原则对其进行归档处 理。文件归档即针对文档中的不同内容,如设计指 标、正文的内容、记录的日志等都设置为合理有效 的归档格式。该格式准许员工们查看文档的数据信 息等。而在与其他档案管理系统完全对接后,各员 工能够在自己的权限范围内对文档进行相关操作。 (4)方便的文档分类、浏览、查询 在统一的文档存储系统被成功创建之后,系统 依照不同的要求或标准,如文档建立的时间、企业 的框构、文件的种类等来详细具体地划分每个文档 的类型。当煤业公司储存了丰富的文档之后,要想 提升信息的质量与价值,最为关键的是如何能够让 公司员工在最短的时间内找到所需的文件。平台可 以让公司员工特别是对技术文档需求频繁的技术 人员借助检索功能来搜索不同类型的文档,如 Office、PDF 等类别文档,可大大缩短文档搜索的 时间,也可为公司员工带来良好的体验感。 (5)版本管理 在归档工作结束之前,每份文档都会被修订, 每次修订完成后的文档都会覆盖住上一个文档。为了 让公司员工看到上一次的修改内容,避免修改不当 而带来不必要的损失,文档管理系统会将不同版本 的文档内容进行自行保存。在员工对文档的内容予 以修改时,系统会自动存储,而不是直接将原来的 版本从电脑中删除,这主要是为了方便后期的查阅。 (6)文档权限保护(正式发布签入以后,询 问权限,并将共享的范围明确出来) 煤业公司信息安全建设中,最关键的部分则为 2082020 年第 6 期 防范尚未通过授权的用户访问敏感内容。在文档管 理系统中,赋予了对应操作权限的员工可对文档进 行阅读、修改、审批、删除等,同时负责管理的技 术人员借助预先设置的权限模板,能够为某文档在 使用的过程中赋予对应的权限。除了避免尚未通过 权限审核的员工阅读文档内容,对文档的保护还应 进行的操作有禁止复印、修改等,除此以外,还可 使文档具有阅读时间限制。 (7)锁定机制 在统一的文档存储中心保存企业的文档资料 后,必然会出现在同一时间内不同员工对相同一篇 文档进行编辑、修改等,而该种操作会带来的不良 影响是增加了文档丢失的风险性;极易损害文档 内容的完整性。为了保证文档的质量,对于不同员 工同时编辑同一篇文档的现象要进行有效的规避。 若当前文档已经由某个技术人员在编辑,那么其他 员工则不得进行其他方面的操作,此时其权限仅局 限于文档的打开和阅读。 (8)完整的文档操作日志 煤业公司员工在操作文档资料的过程中,如查 阅文档、修改资料、审核文档中的部分内容、删除 没有价值的信息等,都需管理系统将操作的文档完 整地记录下来。文档系统管理人员可随时查阅到所 有文档的记录情况。 (9)全文检索 煤业公司内很多有利用价值的信息资源基本都 被存储在不同的文档中,当然还有部分被放在之前 建成的各信息化系统的数据库内,可以说该类资源 体现了煤业公司的管理方式、财务运行状况及其商 业策略等。为了使其得到最大程度的利用,则需进 行科学、合理的管理,并在此基础上为公司构建成 熟、先进的数据搜索系统,从而将存放在不同应用 系统中的信息得到充分的挖掘与开发。借助该信息 系统,文件的扫描工作可自行操作完成,之后便可 对关键词进行拆分与检索结果的排列,有助于企业 快速地查阅文件,提升整体的技术管理水平,避免 了信息资源的浪费,降低了公司的运营成本,实现 了多方系统的有效整合。检索系统在实际使用中应 支持的功能具体归纳为以下几点 ① 关键字检索 在文本框内直接输入关键词即可检索到相应的 文档。 ② 自然语言检索 针对查询条件, 用户以常用语进行概述, 一句话、 一个大的段落,搜索引擎检索后呈现出有关内容。 4 兖矿煤业公司各级技术资料库的应用 图 3 兖矿煤业公司资料库示意图 (1)共用资料库 可服务整个矿上的技术员,结合关键词进行检 索,系统会为使用者匹配对应的文档。 (2)煤业公司级资料库 服务公司不同部门,可查阅内部的技术资料。 (3)煤矿级资料库 以矿为单位实现技术资料的共享,矿内不同机 构或职员可翻阅。 (4)部门级资料库 按部门来实现资料共享。 (5)项目级资料库 可跨越不同的组织亦或是不同的技术专长来统 一构建资料共享库,对于群里的成员,可交由负责 人进行严格的监督与管理,在此基础上,为其明确 地划分权限与职责。在整个项目的任务完成以后, 可依照分类原则将其详细地划分,并归集到各部门 的资料库中。如煤矿在设计作业流程的过程中,主 管人员可在群组内添加其他专业的人员,且在明确 划分不同任务的情况下本着相互合作的理念共同完 成工作目标。 (6)个人资料库 技术人员可对自身的知识分类进行保护,同时 可关注其他方面的内容。系统主要分两个端口,包 括手机端和电脑端,为携带技术资料带来了诸多的 便利,另外也有效地避免了资料的外泄。 5 结 语 Lucien 全文检索的企业知识信息系统在煤矿企 业中与生产技术有效地衔接在一起,借助信息共享, 提升整个技术管理水平,实现不同信息内容的全面 共享。从 2018 年 1 月,煤矿企业正式将该系统投 (下转第 212 页) 2122020 年第 6 期 入到实际应用中,该年内部资料、科研成果、公共 资料等分别为 6870 条、807 条、604 条等,不仅减 少了纸张的使用量,节约了资源与经营的成本,而 且还提升了信息技术的创新水平。 图 5 优化后的顺槽巷道支护断面图 5 结论 (1)基于 15 号煤层顶板灰岩原始应力和构造 应力均较少,且顶板 K2 灰岩稳定完整,属于坚硬 易管理顶板,优化锚杆间排距是科学、合理的。 (2)原有支护方案下巷道矿压显现严重,针 对性地对原有支护方案进行了优化设计,得到了优 化后的支护方案。 (3)数值模拟了支护优化前后巷道围岩的变 形破坏特征,验证了优化后的支护方案效果显著, 并且降低了单位长度巷道的支护材料成本。 (a)原支护方案 (b)优化后支护方案 图 6 数值模拟结果 【参考书目】 [1] 梅星.综放大断面沿空煤巷围岩稳定性及不对称 支护 [D]. 北京中国矿业大学 北京 ,2016. [2] 刘畅,杨增强,弓培林,等 . 工作面过空巷基本 顶超前破断压架机理及控制技术研究 [J]. 煤炭学 报,2017,42(08)1932-1940. [3] 我国煤巷锚杆支护技术新进展 [J]. 岩石力学与工 程学报,2002,21(z1)1986-1990. [4] 于先富,阎石 . 回采巷道锚杆支护设计 [J]. 煤炭 技术,2008(02)48-50. [5] 张召千 . 锚杆支护动态设计方法信息法 [J]. 太 原理工大学学报,2003(01)63-65. [5] Qualcomm Atheros,Inc.AR8033 Integrated 10/100/1000 Mbps Ethernet Transceiver Datasheet[EB/OL].2012-10-25 [2019-11-15]. XeklX0WzR.html. [6] 赵小兵 . 矿用千兆以太网交换机的设计与研制 [J]. 煤矿机电,2014(01)26-29. (上接第 205 页) (上接第 208 页)
展开阅读全文