百科 > 经济 > 经济学术语 > 统计 > 统计方法

DOE

DOE（Design of Experiment,试验设计）

什么是DOE

　　DOE（Design of Experiment）试验设计，一种安排实验和分析实验数据的数理统计方法；试验设计主要对试验进行合理安排，以较小的试验规模(试验次数)、较短的试验周期和较低的试验成本，获得理想的试验结果以及得出科学的结论。

　　试验设计源于1920年代研究育种的科学家Dr.Fisher的研究, Dr. Fisher是大家一致公认的此方法策略的创始者, 但后续努力集其大成, 而使DOE在工业界得以普及且发扬光大者, 则非Dr. Taguchi (田口玄一博士) 莫属。

为什么需要DOE

要为原料选择最合理的配方时（原料及其含量）；
要对生产过程选择最合理的工艺参数时；
要解决那些久经未决的“顽固”品质问题时；
要缩短新产品之开发周期时；
要提高现有产品的产量和质量时；
要为新或现有生产设备或检测设备选择最合理的参数时等。

　　另一方面，过程通过数据表现出来的变异，实际上来源于二部分：一部分来源于过程本身的变异，一部分来源于测量过程中产生的变差，如何知道过程表现出来的变异有多接近过程本身真实的变异呢？这就需要进行MSA 测量系统分析。

DOE的基本原理

　　试验设计的三个基本原理是重复，随机化，以及区组化。

　　所谓重复，意思是基本试验的重复进行。重复有两条重要的性质。第一，允许试验者得到试验误差的一个估计量。这个误差的估计量成为确定数据的观察差是否是统计上的试验差的基本度量单位。第二，如果样本均值用作为试验中一个因素的效应的估计量，则重复允许试验者求得这一效应的更为精确的估计量。如s₂是数据的方差，而有n次重复，则样本均值的方差是。这一点的实际含义是，如果n=1，如果2个处理的y₁ = 145，和y₂ = 147，这时我们可能不能作出2个处理之间有没有差异的推断，也就是说，观察差147-145=2可能是试验误差的结果。但如果n合理的大，试验误差足够小，则当我们观察得y₁随机化是试验设计使用统计方法的基石。

　　所谓随机化，是指试验材料的分配和试验的各个试验进行的次序，都是随机地确定的。统计方法要求观察值（或误差）是独立分布的随机变量。随机化通常能使这一假定有效。把试验进行适当的随机化亦有助于“均匀”可能出现的外来因素的效应。

　　区组化是用来提高试验的精确度的一种方法。一个区组就是试验材料的一个部分，相比于试验材料全体它们本身的性质应该更为类似。区组化牵涉到在每个区组内部对感兴趣的试验条件进行比较。

DOE实验的基本策略

　　策略一：筛选主要因子（X型问题化成A型问题）

　　实验成功的标志：在ANOVA分析中出现了1~4个显着因子；这些显着因子的累积贡献率在70%以上。

　　策略二：找出最佳之生产条件（A型问题化成 T型问题）

　　实验成功的标志：在第二阶段的实验中主要的误差都是随机因素造成的。

　　因为各因子皆不显着，因此，每一因子之各项水准均可使用,在此情况下岂不是达到了成本低廉且又容易控制之目的。

　　策略三：证实最佳生产条件有再现性。

DOE的步骤

　　第一步确定目标

　　我们通过控制图、故障分析、因果分析、失效分析、能力分析等工具的运用，或者是直接实际工作的反映，会得出一些关键的问题点，它反映了某个指标或参数不能满足我们的需求，但是针对这样的问题，我们可能运用一些简单的方法根本就无法解决，这时候我们可能就会想到试验设计。对于运用试验设计解决的问题，我们首先要定义好试验的目的，也就是解决一个什么样的问题，问题给我们带来了什么样的危害，是否有足够的理由支持试验设计方法的运作，我们知道试验设计必须花费较多的资源才能进行，而且对于生产型企业，试验设计的进行会打乱原有的生产稳定次序，所以确定试验目的和试验必要性是首要的任务。随着试验目标的确定，我们还必须定义试验的指标和接受的规格，这样我们的试验才有方向和检验试验成功的度量指标。这里的指标和规格是试验目的的延伸和具体化，也就是对问题解决的着眼点，指标的达成就能够意味着问题的解决。

　　第二步剖析流程

　　关注流程，使我们应该具备的习惯，就像我们的很多企业做水平对比一样，经常会有一个误区，就是只讲关注点放在利益点上，而忽略了对流程特色的对比，试验设计的展开同样必须建立在流程的深层剖析基础之上。任何一个问题的产生，都有它的原因，事物的好坏、参数的便宜、特性的欠缺等等都有这个特点，而诸多原因一般就存在于产生问题的流程当中。流程的定义非常的关键，过短的流程可能会抛弃掉显著的原因，过长的流程必将导致资源的浪费。我们有很多的方式来展开流程，但有一点必须做到，那就是尽可能详尽的列出可能的因素，详尽的因素来自于对每个步骤地详细分解，确认其输入和输出。其实对于流程的剖析和认识，就是改善人员了解问题的开始，因为并不是每个人都能掌握好我们所关注的问题。这一步的输出，使我们的改善人员能够了解问题的可能因素在哪里，虽然不能确定哪个是重要的，但我们至少确定一个总的方向。

　　第三步筛选因素

　　流程的充分分析，使我们有了非常宝贵的资料，那就是可能影响我们关注指标的因素，但是到底哪个是重要的呢？我们知道，对一些根本就不或微小影响因素的全面试验分析，其实就是一种浪费，而且还可能导致试验的误差。因此将可能的因素的筛选就有必要性，这时，我们不需要确认交互作用、高阶效应等问题，我们的目的是确认哪个因素的影响是显著的。我们可以使用一些低解析度的两水平试验或者专门的筛选试验来完成这个任务，这时的试验成本也将最小处理。而且对于这一步任务的完成，我们可以应用一些历史数据，或者完全可靠的经验理论分析，来减少我们的试验因子，当然要注意一点就是，只要对这些数据或分析有很小的怀疑，为了试验结果的可靠，你可以放弃。筛选因素的结果，使得我们掌握了影响指标的主要因素，这一步尤为关键，往往我们在现实中是通过完全的经验分析得出，甚至抱着可能是的态度。

　　第四步快速接近

　　我们通过筛选试验找到了关键的因素，同时筛选试验还包含一些很重要的信息，那就是主要因素对指标的影响趋势，这是我们必须充分利用的信息，它可以帮助我们快速的找到试验目的的可能区域，虽然不是很确定，但我们缩小了包围圈。这时我们一般使用试验设计中的快速上升（下降）方法，它是根据筛选试验所揭示的主要因素的影响趋势来确定一些水平，进行试验，试验的目的就像我们在寻找罪犯一样的缩小嫌疑范围，我们得出的一个结论就是，我们的改善最优点就在因素的最终反映的水平范围内，我们离成功更近了一步。

　　第五步析因试验

　　在筛选试验时我们没有强调因素间的交互作用等的影响，但给出了主要的影响因素，而且快速接近的方法，使我们确定了主要因素的大致取值水平，这时我们就可以进一步的度量因素的主效应、交互作用以及高阶效应，这些试验是在快速接近的水平区间内选取得，所以对于最终的优化有显著的成效，析因试验主要选择各因素构造的几何体的顶点以及中心点来完成，这样的试验构造，可以帮助我们确定对于指标的影响，是否存在交互作用或者那些交互作用，是否存在高阶效应或者哪些高阶效应，试验的最终是通过方差分析来检定这些效应是否显著，同时对以往的筛选、快速接近试验也是一个验证，但我们不宜就在这样的试验基础上就来描述指标与诸主效应的详细关系，因为对于3个水平点的选取，试验功效会有不足的可能性。

　　第六步回归试验

　　我们在析因试验中，确定了所有因素与指标间的主要影响项，但是考虑到功效问题，我们需要进一步的安排一些试验来最终确定因素的最佳影响水平，这时的试验只是一个对析因试验的试验点的补充，也就是还可以利用析因试验的试验数据，只是为了最终能够优化我们的指标，或者说有效全面的构建因素与水平的相应曲面和等高线，我们增加一些试验点来完成这个任务。试验点一般根据回归试验的旋转性来选取，而且它的水平应该根据功效、因子数、中心点数等方面的合理设置，以确保回归模型的可靠性和有效性。这些试验的完成，我们就可以分析和建立起因素和指标间的回归模型，而且可以通过优化的手段来确定最终的因子水平设定。当然为了保险起见，我们最后在得到最佳参数水平组合后进行一些验证试验来检验我们的结果。

　　第七步稳健设计

　　我们知道，试验设计的目的就是希望通过设置我们可以调控的一些关键因素来达到控制指标的目的，因为对于指标来讲我们是无法直接控制的，试验设计提供了这种可能和途径，但是在现实中却还存在一类这样的因素，它对指标影响同样的显著，但是它很难通过人为的控制来确保其影响最优，这类因素我们一般称为噪声因素，它的存在往往会使我们的试验成果功亏一篑，所以对待它的方法，除了尽量的控制之外可以选用稳健设计的方法，目的是这些因素的影响降低至最小，从而保证指标的高优性能。事实上这些因素是普遍存在的，例如我们的汽车行驶的路面，不可能保证都是在高级公路上，那么对于一些差的路面，我们怎样来设计出高性能呢？这时我们会选择出一些抗干扰的因素来缓解干扰因素的影响，这就是稳健设计的意图和途径。通常我们会经常使用在设计和研发阶段，但有时也会随着问题的产生而暴露出来，但我们会提出一个问题了，重新选定主要因素的水平会不会带来指标的振荡和劣化，这是完全有可能的，但我们可以通过EVOP等途径来重新设定以保证因素更改后的输出效果。

　　注：

　　1.试验设计需要成本的投入，我们必须确定试验进行的必要性，以及选取最优的设计方案。

　　2.水平的选取可能直接影响试验设计的结果，要谨慎的选取，最后有专业知识和历史数据的支持。

　　3.尽可能的利用一些历史数据，在确认可靠后提取对我们试验有用的信息，来尽量减少试验投资和缩短试验周期。

　　4.试验设计并不能提供解决所有问题的途径，现实当中的局限验证了这一点，我们要全面考虑解决问题的方式，选取最有效、最经济的解决途径。

　　5.注意充分的分析流程，不要遗漏关键的因素，不要被一些经验论的不可能结论左右。

　　6.除了试验设计涉及的因素外，要尽量确定所有的环境因素是稳定和符合现实的，往往会做不到这一点，我们可以用随机化、区组化来尽量避免。

　　7.注意结果的验证和控制，不要轻信结果。

　　8.尽量保证试验的仿真性，避免一些理想的试验环境，比如试验室，理想不现实的环境是的试验可能根本就没有作用。

　　9.试验设计者要关注试验过程，保证试验意图和方案的彻底执行。

　　10.如果实现一步到位的试验设计是可能的，那就不要犹豫的开展吧，上面的七步只是针对普通的情况。　

DOE的作用

　　在工业生产和工程设计中能发挥重要的作用，主要有：

　　1.提高产量；

　　2.减少质量的波动，提高产品质量水准；

　　3.大大缩短新产品试验周期；

　　4.降低成本；

　　5.试验设计延长产品寿命。

　　在工农业生产和科学研究中，经常需要做试验，以求达到预期的目的。例如在工农业生产中希望通过试验达到高质、优产、低消耗，特别是新产品试验，未知的东西很多，要通过试验来摸索工艺条件或配方。如何做试验，其中大有学问。试验设计得好，会事半功倍，反之会事倍功半，甚至劳而无功。

　　如果要最有效地进行科学试验，必须用科学方法来设计。所谓试验的统计设计，就是设计试验的过程，使得收集的数据适合于用统计方法分析，得出有效的和客观的结论。如果想从数据作出有意义的结论，用统计方法作试验设计是必要的。当问题涉及到受试验误差影响的数据时，只有统计方法才是客观的分析方法。这样一来，任一试验问题就存在两个方面：试验的设计和数据的统计分析。这两个是紧密相连的，因为分析方法直接依赖于所用的设计。

DOE的方法

　　常见的试验设计方法，可分为二类，一类是正交试验设计法，另一类是析因法。

　　（1）正交试验设计法

　　① 定义

　　正交试验设计法是研究与处理多因素试验的一种科学方法。它利用一种规格化的表格——正交表，挑选试验条件，安排试验计划和进行试验，并通过较少次数的试验，找出较好的生产条件，即最优或较优的试验方案。

　　② 用途

　　正交试验设计主要用于调查复杂系统（产品、过程）的某些特性或多个因素对系统（产品、过程）某些特性的影响，识别系统中更有影响的因素、其影响的大小，以及因素间可能存在的相互关系，以促进产品的设计开发和过程的优化、控制或改进现有的产品（或系统）。

　　案例：

　　当试验中只有一个变化的参数时，属于单因素试验问题。例如，需要确定液压作动器的活塞的面积，以使作动器达到最优性能。人们根据对现象的认识，可以估计出最优参数可能存在的区间。如果对它的认识比较清楚，这种估计比较精确，估计的区间较窄；相反，估计的区间就较宽。现在要通过一系列的试验使认识深化。如果逐步试验，要使估计区间缩小100倍就需要作100次试验。但是如果使用区间缩减法中的“黄金分割试验技术”，只要作11次试验就可以将区间缩小到百分之一，作14次试验就可以对区间的认识精度提高500倍。

　　在多因素试验中，往往需要分离出不同因素的影响。譬如要比较A、B、C3种种子的产量。如果只是单纯的种子产量问题，似乎只要在3块同面积的土地上分别用3种种子播种，然后比较产量就可以了。但是如果试验田的位置在南北方向上处于山地和河流之间，东西方向上处在肥料场和荒地之问，这时仍然任意取3块等面积的试验田作试验，就可能由于土壤的肥脊不同和灌溉的充分与否影响试验田的产量，而不单是种子一个因素的结果。要估计这些因素的影响，合理的方法是将试验区分为9块试验田(如下图)，将3种不同的种子的每一种分播在3块不同的试验田里，将3块田的产量平均，就得到由于种子品种造成的差异(排除了土壤和灌溉的因素)；而将靠肥料场的3块田的平均产量，与靠荒地的3块田的平均产量比较，就得到由于土地肥脊程度所造成的产量差异(排除了种子品种和灌溉条件因素)；用靠山的3块田与傍水的3块田平均产量进行比较可以看出由于灌溉条件造成的差异(排除了种子品种和土壤条件的差异)。

　　（2）析因法

　　① 定义析

　　析因法又称析因试验设计、析因试验等。它是研究变动着的两个或多个因素效应的有效方法。许多试验要求考察两个或多个变动因素的效应。例如，若干因素：对产品质量的效应；对某种机器的效应；对某种材料的性能的效应；对某一过程燃烧消耗的效应等等。将所研究的因素按全部因素的所有水平（位级）的一切组合逐次进行试验，称为析因试验，或称完全析因试验，简称析因法。