数据整理(Data Cleansing)
目录
|
数据整理是对调查、观察、实验等研究活动中所搜集到的资料进行检验、归类编码和数字编码的过程。它是数据统计分析的基础。
在二十世纪90年代中晚期,为了揭示一些隐含数据性质、趋势和模式,很多商家开始探讨把传统的统计和人工智能分析技术应用到大型数据库的可行性问题,这些探讨最终发展成为基于统计分析技术的正规数据整理工具。
从商业角度来看,从前未知的统计分析模式或趋势的发现为企业提供了非常有价值的洞察力。数据整理技术能够为企业对未来的发展具有一定的预见性。而OLTP仅仅能够实现对过去的数据进行分析。数据整理技术可以分成3类:群集、分类和预测。
群集技术就是在无序的方式下集中信息。群集的一个例子就是对未知特点的群体商业客户的分析,对这一例子输入相关信息就可以很好的定义客户的特点。
分类技术就是集中和指定object以预先确定事先定义好值的集合。集合通常用上面的技术来形成,可以举一个例子就是把客户按照他们的收入水平分成特定的销售群体。
预测技术就是对某些特定的对象和目录输入已知值,并且把这些值应用到另一个类似集合中以确定期望值或结果。比如,一组戴头盔和肩章的人是足球队的,那么我们也认为另一组带头盔和肩章的人也是足球队的。
下面的这几条是现在常用的数据整理技术,每种技术都存在集中变异,而且可以应用到上面几种技术中。
(3)预防法: 通称管制图法, 包括Pn管制图、P管制图、C管制图、U管制图、管制图、X-Rs管制图。
(1)原始数据之审核。
(2)分类项目之确定。
(3)施行归类整理。
(4)列表。
(5)绘图。
(1)现场收集数据, 应逐日、逐周和品管部门所收集的数据作核对, 以求整理真实且具有代表性的数据。
(2)数据整理, 改善前、后所具备的条件要一致, 如此所作的数据整理和比较才有意义。
(3)异常发生要采取措施, 一定要以整理后之数据为研究依据。
(4)使用经别人发表的次级数据应注意: