资源描述:
大 庆 石 油 学 院 学 报 J OURNAL OF DAQI NG PETROLEUM I NS TI TUTE 第 3 6卷 第 1期 2 0 1 2年 2月 Vo l I 36 No. 1 Fe b. 2 01 2 石 油勘探开发数据元管理技术 文必龙 ,肖 波。 ,陈新荣 1 .中国石油化工股份有限公司 石油勘探开发研究院 , 北京1 0 0 0 8 3 ; 2 .东北石油大学 计算机与信息技术学院, 黑龙 江 大庆1 6 3 3 1 8 ; 3 .中国石油化工股份有限公司 信息系统管理部 , 北京 1 0 0 0 0 5 摘要 I S O对数据元管理方面只规定注册管理 , 缺少数据元质量控 制技术 、 分类管理 、 数据元搜索技术, 难 以满足实 际应用需要. 给出基于语义 的石油勘探开发数据元 管理架构 ; 以基于油 田领域本体 的数据元语 义形式化定 义为基础 , 提 出数据元质量控制模 型、 数据元分类模式 、 数据元搜索服务等管 理技术. 该 技术 已经应 用于 中国石 化石油勘探 开发数据 元管理中. 关键词 数据元管理 ;语义树 ; 分类模式 ; 质量控制 ;石油勘探 开发 ;数字油田 中图分类号 T P 3 1 1 , T E3 1 9 文献标识码 A 文章编号 1 0 0 01 8 9 1 2 0 1 2 0 10 0 8 3 0 5 0 引言 数据 元作 为异 构系统 的公 共数 据术语 标 准 , 在异 构 系统 的集 成 、 数 据 标 准化 方 面发 挥 重要 作 用. 1 9 9 4 年 , I S O发布数据元的国际标准 , 并于 2 0 0 3年进行修订_ 1 ] . 我国在 2 0 0 1年等同采用该 国际标准 , 发布 GB / T 1 8 3 9 1 . 1 ~6 2 0 0 1 信息技术数据元的规范与标准化 , 用于指导和规范数据元的制订工作_ 3 ] , 包括石油工业界的各行业纷纷开展相关数据元标准的制订. 在石油工业界, 发布数据元标准相关的组织主 要 是 A P I Ame r i c a n P e t r o l e u m I n s t i t u t e 的 P I D X P e t r o l e u m I n d u s t r y D a t a E x c h a n g e 小 组 , 该 组 织 以 P I DD P e t r o l e u m I n d u s t r y D a t a D i c t i o n a r y 为基 础 , 发 布一 系 列 基 于 X ML的用 于 数 据 交 换 的 数 据元 标 准, 其中在中国石油也开展数据元标准和数据字典标准化方面的研究_ 4 ] . 在 I S O和各行业的数据元规范 中, 注重数据元的描述与定义 ; 在数据元管理方面 , 只规定数据元的注册管理 , 缺少数据元质量控制、 分类 管理、 应用服务方面的规范和技术 , 因此不能满足数据元实际应用的需要. 针对石油勘探开发数据元建设与应用的特点 , 提出石油勘探开发数据元管理的技术架构 , 建立数据元 管理的元模型, 并研究其 中的数据元质量控制技术 、 数据元分类技术、 数据元搜索技术 , 给出相关技术在中 国石化 数据元 建设 中的应用情 况. 1 技术架构 数据元管理伴随着数据元 的整个生命周期, 从 业 务分 析或数 据结 构 分 析 中获 取 第 1个 数 据元 , 就 要对数据元进行存储、 语义分析、 命名、 描述 ; 完成数 据 元 的初 步定 义后 , 需 要 对 数 据 元 的定 义 进 行 质量 检查 , 包括定义的合法性检查 、 数据元查重等; 数据 元注册时, 还需要对数据元进行分类. 数据元 发布 后 , 应用或用户需要查找数据元. 为了便于对数据元 进 行有效 管理 , 需 要 建立 数 据 库 对数 据 元 相 关 信息 进行存储. 数 据元 管理 的技 术 架 构 见 图 1 , 包 括 数 据元 管 圈固圈 图圈圈 图 1 数据元管理的技术架构 收稿 日期 2 0 1 1 0 92 9 ; 编辑 任志平 基金项 目 国家“ 8 6 3 ” 重点项 目 2 0 0 9 AAo 6 2 8 0 1 ; 中国石化“ 十一五” 重点攻关项 目 G1 1 一MM 作者简介 文必龙 1 9 6 7 一 , 男 , 博士 , 教授 , 主要从事软 件工程 、 数据库应用技术等方面 的研究 大庆石油学院学报 第 3 6卷2 O l 2年 理功 能和数 据元 存储 元模 型. 1 . 1 数据 元管 理功能 数据元 管理 功能包 括数 据元分 类 、 数 据元 质量控 制 、 数据元 搜索 、 数据 元注册 、 数 据元发 布 和同义 词管 理等 . 1 数据 元分 类指 按特性 、 对象 、 活 动对数 据元进 行分 类 , 建 立一 个树状 结构 的分类 结构 . 2 数据 元质 量控 制用 于对数 据元 的名称 、 定义 、 语义 描 述 等进 行检 查 , 保 证各 种 形式 化 定 义 的语 法 、 语 义 正确 , 避免 出现 同名异义 、 异名 同义 、 数据元 重 复定义 等 问题 . 3 数据 元 搜 索指 按 给 定 的关 键 字 进 行模 糊查 找 , 得 到一个 或多 个可 能的数 据元 , 并可查 找相关 的定 义. 4 数 据 元 注 册 指 按 照 G B / T 1 8 3 9 1 2 0 0 1 的规 定 , 在 数据元 管 理 系统 中注册 数据 元 的定义和相关信息. 只有经过注册后的数据元 I数 据 元 L _ _ _ J 才能发布和应用 . 1兰 竺 J 【 5 数据 元 发 布是 指 在 专 门 的 网站 上 发布 已经 注册 的数据元 . 6 同义 词 管 理是 对 数 据 元定 义 的一个 补 充 , 通过定 义、 合 并、 翻译 等多种 形式 建立 同 义词 . 数 据元 管理 流程见 图 2 . 1 . 2数据 元存储 元模 型 数据元存储元模型主要实体及实体之间的 关系 见 图 3 . 数 据元 用 于 存储 数 据元 字 典 的 内容 , 包 括 数据 元代码 、 数据 元名 称 、 对 象实体 、 特 性实体 、 数据 元 约 束 、 使 用 状 态 、 说 明 和 语 义 描 述 等 属性 . 数据元 分类 模式 依据对 象所 具有 的共 同特 征 , 如起源 、 组 成 、 结构 、 应用 和 功 能 , 对 其 进 行 排列 或 划 分. 数 据元 分类 模 式 定义 数 据元 所 有 的分类模式项及分类模式项之间的层次关系, 分类 模 式 构成 一 个 目录树 , 树 的每 一 个 节点 即 一 个 分类模 式 项 ] . 分 类 模 式项 的属 性 包 括 分 类名称、 描述、 父节点等. 数据元定义 数据元质量控制 数据元 注册 同义 词 管理 数据元分类 匦 { 毅 l艚 兀 发 关 键 孚 表 I I 一 二 。 . 数据元搜索 图 2 数据 元 管理 流 程 数据元 同义词 数据元 分类表 图 3 数据 元存储 元模 型 数据 元分 类用 于将一 个数 据元关 联 到具体 的分类 模式 项 中 , 一个 数据元 可 以同时 属于 多个分 类 , 分 类 既 可 以是 分类 模式树 的 叶子节 点 , 也 可 以是 中间结点 . 数据元关键字表记录每一个数据元在语义上可用哪些关键字表达, 按照关键字可对数据元进行检索 , 关键 字 表是根 据数 据元字 典 、 数 据元 分类 包括 分类模 式表 、 同义词 表 的内容建 立 的. 同义词表 用于定 义一 个 主数据元 还有 哪些别 名 , 即 同义词 , 建立 同义词 表 的 目的主要是 为 了使标 准词 汇 、 外文 、 中文 同义词 等 之间可 以相互 转换 . 数据元管理由数据元库完成, 具体由数据元字典 、 数据元分类表和同义词表完成 , 这些 表的数据需要 事先 建立 , 利用 工具或 直接 手工 将数据 加入 数据 库. 为 了便 于数据 元模 糊查 找 , 还 建立 一个数 据元 索引 表 , 索 引表是 自动建 立 的. R4‘ 第 1 期 文必龙等 石油勘探开发数据元管理技术 2 数据元质量控制 数据元质量指数据元的命名 、 定义等在格式和内容上满足作为标准化的数据术语的要求. 当前 数据元 字典 是采 用工具 辅助 下 的人工定 义方 式开 发 的 , 由不 同专业 的多个人 员参 与定义 有 的是 根据 当前使 用 的数据模 型 定义 的 ; 有 的是根 据业 务模 型定义 的. 数据元 定义 存在 问题 1 同名异 义 , 即相 同数据元 定义 不 同 ; 2 异 名 同义 , 即不 同数据元 相 同的定 义结果 ; 3 数 据元 出现 重复 ; 4 语 义描 述不 准确 . 总之 , 由于数据元 名称 、 语义 、 人 员操作 因素影 响 , 单纯 依靠 人工很 难检 查 出来. 数据元质量控制是基于数据元语义描述的. 数据元语义的描述方法见文献E l O 一1 2 ] , 利用油 田领域本 体 , 根据数据元的特性词、 对象词 、 限定词之 间的关系 , 构成 1 个语义树 , 并定义语义树的各种语义运算 , 如 语义 树 的交 、 差 、 并及 相似 度等 , 其 中语 义树 的相 似度 反 映 2个 数据元 语义 上接 近 的程 度 ; 还 定义 语义树 的 图形 绘制 方式. 利用 数据元 的语 义相 似度 可 以检 查 2个数 据元 在语义 上 的同异 问题 1 当 2 个 数据元 的语 义相 似度 为 1时 , 表示 它们 的语 义相 同. 在 确认 它们 是表示 同一个 数据 元后 , 如 果它们的名字也相同, 则直接合并 2个数据元 ; 如果名字不相 同, 选择一个最合适 的数据元名称 , 并合并 之. 如果 确认它 们并不 表示 相 同的含 义 , 至 少有 一个数 据 元 的语 义描 述 出现 偏 差 , 则 通 过语 义 树 图检查 语 义 , 更 正语 义描 述. 2 当 2 个数据元 的语义相似度为 0 . 8 7 5 ~1 时 , 表示它们的语义相近. 根据数据元语义树相似度计算 规则 , 相 似度不 小 于 0 . 8 7 5表示 2个 数据 元 除 了特性 词 、 对 象词 、 表 示 词 相 同外 , 至少 还 有 一 个 限定 词 相 同. 如“ 单井 日产油量” 与“ 单井月产油量” 的语义树相似度为 0 . 8 7 5 , 特性词 、 对象词、 表示词分别为“ 产 量” 、 “ 原 油” 、 “ 吨” , 其 中表 示词直 接作 为产 量 的度 量单 位进 行定 义 , 且 都有 一个 相 同的限定 词“ 井 ” , 语义 差 异是 由限定词“ 每 日” 和“ 每月” 产生的 见图 4 . 对语义相近 的数据元 , 需要 比较它们的差异 , 甑别是确实 不 同 , 还是 出现 定义 上的偏 差. 为了快 速 比较 2 个 数据 元 的语 义 差异 , 设计语 义树 比较 图 , 用 专 门颜 色标 出 2个语 义树相 同的部分 , 直接 对差异 部分 进行 甑别 . a 单井 日产油量 b 单井月产油量 C 单井产油量 图 4 数据元语义树 比较 3 数据元分 类 在 当前分 类模 式 中 , 按 活动 、 对 象 、 特 性设 计分 类. 按活动分类指每一个业务活动中使用的数据元. 业务模型中活动的 目录架构构成以及活动与数据元 的关系构成数据元的分类模式. 在石油勘探开发数据元的梳理过程 中, 首先建立勘探开发业务模型, 分层 次建立业务活动的分类体系 , 并将对每一个活动相关的数据项与数据元建立对应关系. 按对象分类指数据元的对象类产生的分类结构 . 在设计石油勘探开发数据元时 , 已经建立一套逻辑 数 据模 型 , 其 中包 括各类 勘探 开发对 象及 对象 之 间的关 系. 在描 述 数据 元语 义 时 , 要求 指 定 每一 个 数据 元 的对象类. 数据元与对象类是 1 对多的关系 , 即 1 个对象类对应多个数据元 , 1个数据元只有一个对象类. 大庆石油学院学报 第 3 6卷2 0 l 2年 对象类 的分类体系及对象类与数据元的对应关系构成数据元的分类模式. 按 特性分 类指 根据 数据元 的特性 类进 行分类 . 由于特性 类是 数据元 语义 的核 心词 , 对象类 和 限定词 是 对 特性 类 的语 义 限定 , 因此按特 性对 数据 元分类 本质 上是按 照数 据元 的语义 进行 分类 . 由于需 要进 行语 义 的甑别 , 按特 性分类 要 比按活 动分类 和按对 象分 类复 杂得 多 , 需要 提 出基于语 义树 的数 据元分 类方 法. 定 义 1 对任 意 2个概 念 E 和 E。 , 对应 的语 义 树分 别 为 , 厂 和 T , 如 果 T 与 T 的根 节点 相 同 , 且 T 包含 T z , 则称 E 为 E 。的上位类 , E 。 为 E 下 位类 , 记为 E E . 上 位类 的概念 比下位 类 的概念更 抽象 , 更通 用. 如 “ 单 井 产油 量 ” 是 通 用概 念 , 其 语 义树 包 含 于“ 单 井 日产油量” 与“ 单井月产油量” 的语义树 中, 因此“ 单井产油量” “ 单井 日产油量” , “ 单井产油量” “ 单井月 产 油量 ” 见 图 4 c . 定 义 2 数据 元集 合 E一{ e , co , ⋯ , e } , 如果 树 T满 足条件 1 树 中每一个 节点 为一个 数据元 概念 , 除根 节点外 的每一个 节点都 有一 棵语 义树 ; 2 T的所 有 叶子 结点 的集 合等 于 E; 3 对树 中 的任 意一个 节点 N , 其 父节 点为 N。 , 如 果 N r o o t , N。 N ; 则称 T为 E 的分类 树. 在数 据元 分类树 中 , 上位节 点概念 比下 位节 点概念 抽象 , 下位 节点 概念是 上位 节点 概念 的细化 . 一 个 数据 元集 的分类 树不 是唯一 的 , 分 类有 粗有 细. 为 了避免 分类 太细 或太粗 , 在 实现分 类算 法时 , 采 用方 法 1 如果分 类树 中某个 分类 节点 的子节 点为 叶子节 点 , 且 叶子 节点 数小 于 2 O , 则该 分 类 节点 与其 兄 弟 节 点进行 合并 ; 2 如果 叶子节 点数 大于 1 5 0 , 则将该 分 类 节点 对 应 的子 树拆 分 为 2棵子 树 . 分 类树 的初 步 构建 及 节 点 的语 义树构 建可 以使用 程序 自动完 成 , 但 分类 节点 的命名 、 子树 拆分需 要 人工 干预. 4 数据 元搜 索 数据 元搜 索指按 给定 的关 键字进 行模 糊查找 , 并 给 出数据 元 的定 义 及语 义 树. 数据 元 搜 索 主要 部 分 一 是 建立 数据 元索 引 ; 二 是关键 字 匹配. 传统 的文本内容搜索是通过对文本进行切词后 , 根据切词结果建立索引. 根据数据元定义规范 , 在石 油 勘探 开发数 据元 字典 中只有 数据元 名称 、 描述 可 以提供 切词进 行搜 索 ; 此 类信 息不 能够完 整表 达数据 的 内涵. 需 要为 每个数 据元 建立专 门的关 键 词表 , 作 为索 引 的依据 . 关 键 词表 的 内容 除 了数据元 名称 、 数据 元 描述信息外 , 还增加数据元的同义词 、 所属分类 、 语义树 中所有的节点名称和约束条件等内容, 为了提高切 词 的准 确度 , 在各关 键字 之 间加 人分 隔符 . 在 关键字 匹配 方面 采用模 糊 匹配方法 , 不要 求输 入关 键字 与索 引库 中的关键 字完 全相 同 , 只要关键 字 之间的相似度达到规定的阈值即符合匹配要求. 现有的计算词语相似度的方法按照计算所依据特征 的不 同 , 可 以划分 为基 于字 面相似 的方法 、 基 于统计关 联 的方 法 和基 于语 义 相似 的方 法 . 在 油 田业 务 人员 交 流 的过程 中, 人 们 习惯 使用 一些专 业名 称 的简称 , 如对 “ 单 井每 日生产 原 油 的吨数 ” 简 称 为“ 单 井 日产 油量 ” , 因此适合采用基于字面相似的计算方法. 它主要有基于编辑距离 的计算方法1 ] 和基于词汇字面相似度 的 计 算方 法⋯] . 分 析数据 元关 键字 , 关键 词 的相似度 具有 规律性 1 2个关键字的词语结构上越相近, 相似度越高 ; 2 2个关键 字包 含相 同语 素越 多 , 相似 度越 高 ; 3 2个关键字包含的相同语素的位置越靠后 , 相似度越高. 这 种规律 性符 合汉语 构词 的重 心后 移原理 , 即中文 的数据元 关键 字 的中心 词位 于词 的后 半 部分 , 在字 面上语 素越靠 后 , 它在 表达 主题 概念 中所 起 的作 用越 大[ 1 . 采 用基 于编辑 距离 与语 素语义 加权 相结合 的方 法进行 数据 元关 键字模 糊 匹配. 对 任意 2个 关键字 1 首先 确定 2个关 键字 的最 长公共 子序列 L C S L o n g e s t C o mmo n S u b s e q u e n c e ; R 第 1 期 文必龙等 石油勘探开发数据元管理技术 2 确定关键字 中各个语素表的语义权值 语素越靠前, 权值也越小 ; 语素越靠后 , 权值也越大. 计算 2 个关键字中各词素的编辑距离, 得到编辑距离矩阵; 计算 2个关键字的字面相似度. 基于数据元索引和关键字匹配方法 , 数据元搜索提供功能 1 按关键字搜索 , 可以在关键字搜索框中指定 1 个或多个关键字 , 关键字之问用空格分开. 搜索结果 显 示在 数据元 列表 中. 2 搜索 范 围包 括在 指定 分类 中搜 索和在 全部 数据元 中搜 索. 3 匹配 方式 包括 精确 匹配 和模 糊 匹配 . 4 搜索 结果 按语 义匹配 度排 列. 对搜索结果除浏览数据元清单外 , 可将数据元清单拷 贝到系统的剪切板上 , 供应用程序或文字编辑器 中作进一步处理 ; 还可 以显示数据元信息, 包括数据元的定义信 息和数据元的语 义树 图形 、 查看相似数 据元 . 5 结束语 在 中国石化 石油 勘探 开发数 据元建 设 中 , 按 照数据元 管 理架构 , 开发 中国石化石 油勘探 开发 数据 元管 理系统, 在 WE B环境下 , 实现数据元注册 、 分类显示、 搜索 、 质量检查 1 根据业务流程和现有数据模型, 按专业分成多个小组 , 梳理数据元 ; 然后汇集在一起 , 得到 3 万多个数据元 , 每个数据元根据数据元字典的 规范进行命名 、 同义词收集 、 语义描述等. 2 对数据元进行质量检查 , 完成数据元语义描述检查 、 查重 、 语 义甑 别 , 通 过数 据元质 量检查 , 得 到 2 万 多个 规范 的数据 元. 3 分 别根据 活动 、 对象 、 特性建 立数 据元 分类 模式 . 4 将 数据 元发 布到 网站 , 并 提供 数据元 搜 索功能 . 中国石化 石油勘 探开 发数据 元是 我 国第 一个 完整 的石 油工业 数 据元 , 已经在 中 国石化胜 利油 田、 河 南油 田、 江汉油 田等数 据 中心 的建 设 中得 到应 用. 参考文献 [ 1 ] I S O/ I E C, 1 1 1 7 9 1 ~6 I n f o r ma t i o n t e c h n o l o g y Me t a d a t a r e g i s t r i e s MDR [ s ] . [ 2 ] I S O / I E C, I n f o r ma t i o n t e c h n o l o g y P r o c e d u r e s f o r a c h i e v i n g me t a d a t a r e g i s t r y MDRc o n t e n t c o n s i s t e n c y P a r t 1 D a t a e l e me n t s [ S ] . [ 3 ] GB / T 1 8 3 9 1 . 2 2 0 0 1 , 信息技术 数据元规 范与标准化I s ] . [ 4 ] 文必龙 , 苏斐 , 高俊涛 , 等. 中国石油信息系统数据字典 的设计与实现F J ] . 大庆石油学院学报 , 2 0 0 3 , 2 7 4 6 0 6 2 . I s ] 袁满 , 武峰林 , 于春生. 基于混合本体和 Me d i a t o r / Wr a p p e r 的语义数据集成模型[ J ] . 大庆石油学院学报 , 2 0 1 0 , 3 4 1 8 4 8 8 . [ 6 ] 文必龙 , 张剑光. 基于 P OS C平 台的数据仓库[ J ] . 大庆石油学 院学报 , 2 0 0 2 , 2 6 1 5 7 6 0 . [ 7 ] 陶金花 , 文必龙 , 张敬波 , 等. 一种基于元模型的关系数据库 的查询方法[ J ] . 大庆石油学院学报 , 2 0 0 4 , 2 8 2 6 9 7 i . [ 8 ] 任庆东 , 李天 阳, 袁满 , 等. 基于元数据驱动的通用数据迁移工具[ J ] . 大庆石油学院学报 , 2 0 i I , 3 5 I 7 6 8 0 . [ 9 ] 任庆东 , 李永盛 , 袁文翠 , 等. 基 于元数据驱动的勘探 开发综合数据库通用查询系统[ J ] . 大庆石油学院学报 , 2 0 1 0 , 3 4 6 9 1 9 5 . [ 1 o ] 文必龙.基于语义 的油 田经营管理过程信息采集方法研究[ D ] . 北京 北京航空航 天大学 , 2 0 1 0 . [ 1 1 ] 秦善华 , 史春波 , 邵庆. 基于数据元的数据模型语义描述[ J ] . 大庆石油学院学报 , 2 0 0 9 , 3 3 3 1 0 0 1 0 3 . [ 1 2 ] We n B i l o n g ,Z h a n g g i .D e f i n i n g s e ma n t i c s f o r d a t a e l e me n t wi t h s e ma n t i c t r e e C ] / / P r o c e e d i n g s o f 2 0 0 8 I n t e r n a t i o n a l S y mp o s i u m o n I n f o r ma t i o n Sc i e nc e a nd En g i ne e r i n g .I S I S E 2 0 0 8,Sh a ng ha i ,2 0 0 8 5 2 4 5 2 7 . [ 1 3 ] 赵作鹏 , 尹志 民, 王潜平 , 等. 一种改进的编辑距离算法及其在数据处理中的应用[ J ] . 计算机应用 , 2 0 0 9 , 2 9 2 4 2 4 --4 2 6 . [ 1 4 ] L u Yo n g ,Ho u Ha n q i n g .Au t o ma t i c r e c o g n it i o n a n d mi n i n g o f Ch i n e s e s y n o n y ms f o r i n f o r ma t i o n r e t r i e v a l [- J ] .I n f o r ma t i o n S t u d i e s Th e o r y Ap p l i c a t i o n, 2 0 0 6, 2 9 4 4 7 24 7 5 . [ 1 5 1 朱毅华 , 侯汉清 , 沙印亭. 计算机识别汉语同义词的两种算法 比较和测评[ J ] . 中国图书馆学报 , 2 0 0 2 , 4 6 4 8 2 8 5 .
展开阅读全文