数据标准化

数据标准化(data standardization)

目录

  • 1 什么是数据标准化
  • 2 常用的数据标准化方法[1]
  • 3 数据标准化的意义[2]
  • 4 数据标准化与数据共享[2]
  • 5 企业数据标准化[3]
  • 6 参考文献

什么是数据标准化

  数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。

常用的数据标准化方法

  数据标准化是统计学上常用的方法,是为了消除不同属性或样方间的不齐性,使同一样方内的不同属性间或同一属性在不同样方内的方差减小;有时是为了限制数据的取值范围,如[0,1]闭区间等。有些数量分析方法要求特殊的标准化过程,并将标准化作为其分析方法的一部分。比如,主分量分析(PCA)一般要求中心化,对应分析(CA)则要求对排序坐标进行标准化等。这些方法在应用前不必考虑标准化。现在说的标准化是指一般不特殊要求标准化的方法,即要不要进行标准化是由使用者自己决定。这样的标准化必须在数量分析前完成。标准化过程也是通过某一计算将原始数据变成新的值,但它与原始数据集合中的其他值有关而不同于数据转换。下面介绍一些常用的标准化方法。

  1.数据中心化

  数据中心化(centralization)就是将原始数据减去平均值,如果对种类(属性)中心化就分别减去各个种在所有样方中的平均值,对原始数据矩阵而言,它是每一行的平均值;若对样方(实体)中心化,则分别减去一个样方内所有种的平均值,在原始数据矩阵中,它是每一列的平均值,用公式表示,为

  对种标准化    (i=1,2,…,P)  (种类)  (1)

  对样方标准化    (j=1,2,…,N)  (样方数)  (2)

式中,Xij,分别为标准化前和标准化后的第i个种在第j个样方中的值;为第i个种在所有样方中的平均值;为第j个样方内所有种的平均值。

  经中心化的数据很易于计算各种类(属性)间或样方(实体)间的方差协方差。有时对种类和样方同时进行中心化,称为双重中心化。

  2.离差标准化

  离差标准化(deviation standardization)实际上等于经中心化的数据再除以离差,即对种类(属性)标准化:  (3)

  对样方(实体)标准化:  (4)

  式中,字母的含义同中心化,经离差标准化的数据很容易计算种类(属性)间或样方(实体)目的相关系数

  3.数据正规化

  数据正规化(normalization)就是用标准差进行标准化。标准差等于离差除以自由度N-1或P-1,所以正规化方式如下。

  对种类正规化    (5)

  对样方正规化    (6)

  对种类正规化后的数据,每行的平均值为0,方差为1;对样方正规化后,每列的平均值为0,方差也为1。

  4.其他标准化

  还有一些标准化方法,其做法是将原始数据除以某一值,如将原始数据除以行或列的和,称总和标准化;如果原始数据除以每行或每列中的最大值,叫做最大值标准化;如果原始数据除以行或列的和的平方根,则称为模标准化(norm standardization)(阳含熙和卢泽愚 1981)。

  以上是主要标准化方法的基本计算。在实践中,标准化往往还需要考虑权重,以更好地反映生态关系。比如,在对应分析(CA/RA)坐标值标准化中,一般以原始数据矩阵列之和为权重

数据标准化的意义

  数据是信息系统的基础,数据标准化主要包括数据交换、数据质量和数据说明文件等几方面内容。数据交换即将一种数据格式转换成为另外某种数据格式的技术。数据质量涉及数据要素的描述、分类,编码等方面的内容。每个用户都希望获得现时的、完整而准确的数据。每个部门对数据的精度、流通性、完整性要求不同。数据质量标准对需要空间数据的一些要素进行描述,包括空间数据精度、属性数据精度、逻辑一致性、数据完整性和层次关系等内容。

  数据标准化主要体现在对数据信息的分类和编码。对数据信息的分类是指根据一定的分类指标形成相应的若干层次目录,构成一个有层次的逐级展开的分类体系。数据的编码设计是在分类体系基础上进行的,数据编码要坚持系统性、惟一性、可行性、简单性、一致性、稳定性、可操作性和标准化的原则,统一安排编码结构和码位。数据标准是数据共享和系统集成的重要前提,数据标准化可以节省费用,提高效率和方便应用,有利于系统推广应用,实现数据共享,减少数据采集费用。

数据标准化与数据共享

  数据可以在多个级别上共享,在最低级,多个记录使用相同的数据项。在中级,多个应用使用相同的文件或数据项组合,多个数据项构成数据库,一个系统可以包含许多单独的数据库。在数据共享的最高级,每一个完整的数据库可以用于许多部门,同时也可以供其他行业乃至全社会使用。

  应用数据库技术组织数据是实现数据共享的惟一的途径。数据库可以使数据与使用它们的各个应用程序相互独立,互不依赖。不论程序改变还是数据改变都不引起另一方的改变,能够很容易重新组织数据,加入新的数据。同样,在数据结构、数据内容或数据存储的物理介质发生改变,都不需要重写程序。

  数据标准化是数据共享的前提,数据标准化的程度与数据共享的能力成正比。数据标准化能够使各个应用系统对客观实体的分类和描述手段一致,或者提供相应的转换接口。在理解一致的前提下,应用标准数据编码系统和统一的逻辑描述方式,使共享数据库中成为可能。

企业数据标准化

  企业信息化是指利用计算机网络技术,通过对信息资源的深度开发和广泛利用,不断提高生产和经营管理水平、提高相关决策的效率质量,从而提高企业经济效益核心竞争力的过程。无疑,企业信息化是解决企业生产和管理中突出问题的有效措施,是促进企业高效生产、管理创新及体制创新的重要途径,是带动企业各项工作水平提升的重要突破口。信息化中关键的问题就是对信息资源的开发和利用,所谓的信息资源,归根结底就是各类相关的“信息”,本质上就是数据,即有一定格式的、代表某些特殊意义的数据或数据集合。因此,企业信息化就是对企业数据集合进行数字化设计、实施、应用及管理,如何保证数据的规范化和标准化是企业信息化成败最为关键的因素。数据标准化工作是企业进行信息化建设最基础的工作,是信息化系统整体化和数据共享的基本保证。

  计算机系统是一套数据处理系统,要应用计算机处理各项业务,被处理的数据必须标准化、规范化,没有标准化、规范化的数据,再大的投资也将付诸东流,业界流行的企业信息化是“三分技术、七分管理、十二分数据”,就是这个道理。只有实现数据的标准和统一,业务流程才能通畅流转;只有实现数据的有效积累,决策才有据可循;只有数据准确,才能保证系统的完善。数据标准化、规范化是实现信息集成和共享的前提,在此基础上才谈得上信息的准确、完整和及时。没有数据标准化,信息共享就无从谈起,而数据标准化离不开业务模型的标准化、基础数据的标准化和文档的标准化,只有解决了这些方面的标准化,并实现信息资源的规范管理,才能从根本上消除各业务系统的“信息孤岛”。以往许多企业信息化系统的失败,在很大程度上是由于数据标准化工作的失误造成的,或者是根本就没有有效地进行数据标准化工作。

  企业信息化的最大效益来自信息的最广泛共享、最快捷的流通和对信息进行深层次的挖掘。因此,如何将分散、孤立的各类信息变成网络化的信息资源,将众多“孤岛式”的信息系统进行整合,实现信息的快捷流通和共享,是企业信息化过程中亟待解决的问题。在企业信息化建设过程中,建设高质量的数据标准化体系,是开发企业信息资源、建立全面支持企业信息化运行的IT资源平台的基本工作。数据标准化体系的设计目标是规范、标准、可控、支持高效数据处理和深层数据分析的数据结构以及稳定、统一的数据应用体系及管理架构。

  (1)数据标准化体系建设

  数据标准化体系建设需要综合运用关键成功因素法企业系统规划法等分析方法,一方面使用战略目标集转换法和关键成功因素法,自上而下分析企业数据类别;另一方面借助系统规划和业务流程优化思想,梳理部分业务流程,自下而上提取基础数据;进而,提取并识别概念数据库、逻辑数据库、数据类、数据元素,建立数据模型,遵循关系数据库规范设计数据库结构,最终实现信息的全面性和数据的规范性。

  目前企业信息化过程中数据标准化建设有两种:全面标准化和渐进式标准化。全面标准化首先实施独立的、全面的数据标准化项目,可以在整个企业范围内基本完成“信息资源规划(IRP)”工作,建立长期稳定的主题数据库体系,各子系统的建设在上述稳定的“信息资源平台”的基础上建设;渐进式标准化则首先建立企业的数据标准化框架,配合试点子系统的运行,完成与试点子系统相关的业务数据以及部分管理数据的标准化工作,其后在遵循统一原则的前提下,各子系统项目分别完成相关的数据标准化工作,并将标准化成果纳入企业数据资源平台中。一般情况下,数据标准化体系建设应采取渐进式,数据标准化进程与信息化项目建设进程同步进行,在保证建设速度的同时坚持标准化原则,以支持企业信息资源充分共享与各子系统的整合,实现“速度与标准并重”,同时确保数据标准化的实用性,防止数据标准化空洞或流于形式。

  (2)建立数据模型

  数据模型包括两个层面:①逻辑模型,也称信息模型或概念模型,按照用户的观点对数据和信息进行建模,通常用实体和关系来表示,不依赖于某一个DBMS支持的数据模型;②物理模型,面向实际的数据库,表现为数据结构(用于描述系统的静态特性,研究与数据类型、内容、性质有关的对象,例如关系模型中的域、属性、关系等)、数据操作(主要有检索和更新两大类操作,数据模型必须定义这些操作的确切含义、操作符号、操作规则以及实现操作的语言)以及数据的约束条件(一组完整性规则的集合。完整性规则是给定数据模型中数据及其联系所具有的制约和存储规则,用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效、相容)。此外,数据模型还应该提供定义完整性约束条件的机制

  建立数据模型的步骤如下:从实际业务中抽取各类实体→定义各个实体自身的属性→定义各个实体之间关系,设计出实体-关系图(E-R图)→根据E—R图把逻辑模型转换为符合相关模型类型的物理模型→建立物理模型数据结构→定义物理模型数据的操作→定义和检查物理模型的完整性。

  数据模型应该具有以下几个主要的特性:①先进性,数据模型应该符合当前的技术标准,适应企业3~5年的发展需要,就是说在3~5年之内具有先进性;②可扩展性,数据模型必须具有可扩展性,根据企业的需要对模型进行扩展,支持企业的可持续发展;③可靠性,设计的数学模型必须准确可靠,能够保证基于这些数据模型的信息系统的安全可靠运行;④一致性,设计的数学模型在整个企业范围内是完全一致的。

  (3)建立数据编码标准

  在信息化推进过程中,除了建立合理、完整的数据模型外,数据编码这项基础工作也是非常复杂的,其复杂程度超过软件厂商的想象,许多软件的应用并不是软件本身的问题,也不是用户不想应用,而是不能正确收集到全部的基础数据,其中编码是最大的问题。经验表明,企业应用信息化等是否成功,只要了解其数据编码工作是否真正做好即可,数据编码工作做好了,其它方面的问题就比较容易解决。

  数据编码是建立企业信息的基础,关系到信息系统的整体效果和成败。必须对企业的所有管理对象进行编码,并且要做到每一个管理对象的编码都是唯一的。计算机系统严格按代码管理,各种代码始终贯穿于所有信息中,如供应商在计算机中有供应商代码,合同有合同代码,商品商品代码商品条码商品分类有商品分类码,人员有人员编码,部门有部门编码,而且代码与代码之问有很大的关联,因此在建立数据编码标准时要充分考虑这些因素,使代码与代码之间进行协调统,在以后信息系统的数据准备中,严格依据所制定代码按照标准化、规范化进行管理和执行。要进行编码的管理对象大致包括下列各项:①产品系列编码,包括产品编码、原料编码、辅料编码、半成品编码、在制品编码、包装材料编码等;②对外系列编码,包括客户编码、供应商编码等;③仓库系列编码,包括仓库编码、库区编码、库位编码等;④组织系列编码,包括部门编码、人员编码、职务编码等,⑤设备系列编码,包括设备编码、备品备件编码等;⑥财务系列编码,包括科目编码;⑦工艺流程与装置编码等。

  编码的分类与取值是否科学合理直接关系到信息处理、检索和传输的自动化水平与效率,信息编码是否规范和标准影响和决定了信息的交流与共享等性能。因此,编码必须遵循科学性、系统性、可扩展性、兼容性和综合性等基本原则,从系统工程的角度出发,把局部问题放在系统整体中考虑,达到全局优化效果。遵循国际标准国家标准行业标准企业标准的原则,建立适合和满足本企业管理需要的信息编码体系和标准。只有信息分类编码标准、统一,各信息系统才能够有效地集成和共享。在编码过程中,要遵循以下三个原则:首先要树立整个企业一体化的思想,要求所有的编码要站在整个企业的角度进行;其次,编码既要考虑到现有的需求,也要结合未来的需求;第三,编码要规范化。

  (4)信息系统集成标准化

  数据标准化也是信息系统集成项目中非常重要的一点,信息系统集成是一项具有知识密集、资料密集、工作量大等特点的系统工程,包括主要信息指标体系标准化、信息系统开发标准化、信息交换接口标准化等标准化工作。

  ①信息指标体系标准化信息指标体系是指一定范围内所有信息的标准,按其内在联系所组成的、科学的有机整体,它应具有目标性、集合性、可分解性、相关性、适应性和整体性等特征。在管理层次和管理部门众多的情况下,只有统一和规范指标体系,才能使各系统和各个层次开发和实施的信息系统能够实现数据和信息的兼容与共享。

  ②信息系统开发标准化信息系统开发标准化主要指在系统开发中遵守统一的系统设计规范、程序开发规范和项目管理规范。系统设计规范定字段、数据库、程序和文档的命名规则和编制方法,应用程序界面的标准和风格等。程序开发规范对应用程序进行模块划分、标准程序流程的编写、对象或变量命名、数据校验及出错处理等过程和方法做出规定。项目管理规范规定项目开发过程中各类问题(如设计问题、程序问题等)的处理规范和修改规则,文档的编写维护,在信息系统开发过程中,必须遵守软件工程设计规范,实现信息系统开发标准化。

  ③信息交换接口标准化目前有许多企业使用的各种应用系统,大多是在不同的操作系统、数据库系统程序设计语言、硬件平台和网络环境下开发与运行的,这些应用系统在开发时并没有考虑到企业数据的集成,造成企业内部数据比较散乱,容易出现数据不一致的现象。可以说信息系统的质量与接口的标准化密切相关,接口标准化已成为企业数据信息标准化的重要一环。信息交换接口标准化对信息系统内部和信息系统之间各种软件和硬件的接口与联系方式,以及信息系统输入和输出的格式制定规范和标准,包括网络的互联标准和通信协议、各种数据库的数据交换格式,不同信息系统之间数据的转换方式等。

  总之,两化融合建设是一项长期的系统工程,两化融合的出发点和落脚点是实现信息共享和管理信息化。没有标准化,就不能实现信息共享;没有卓有成效的信息管理,就没有成功高效的业务流程,更建立不起来全企业的清洁生产管理与信息化的两化融合系统。标准化是企业两化融合建设的基础性工作,直接影响两化融合成败,只有管好数据、用好数据。保证数据的唯一性、完整性、准确性、及时性,才能使两化融合系统真正发挥出应有的作用。企业进行两化融合工作,在加快基础设施建设和信息系统建设的同时,必须同样加强相关的标准化工作,不仅要为两化融合提供硬件基础,更要为两化融合提供软件保障。标准化是两化融合的基础,只有实现了标准化,才能充分保障两化融合的健康,才能保障企业两化融合建设的经济效益、支持企业的战略发展。

参考文献

  1. 张金屯著.第二章 数据的处理 数量生态学 第二版.科学出版社,2011.05.
  2. 2.0 2.1 李纪人,黄诗峰等编著.第十章 运行系统设计及数据标准语共享 “3S”技术水利应用指南.中国水利水电出版社,2003年04月第1版.
  3. 顾祥柏,耿志强编著.第一章 节能减排管理的引擎——标准化与信息化 石油化工节能减排智能管理.化学工业出版社,2011.08.
阅读数:598