遗传算法(Genetic Algorithm)
目录
|
遗传算法是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法。它是由美国的J.Holland教授1975年首先提出,其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。遗传算法的这些性质,已被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。它是现代有关智能计算中的关键技术之一。
达尔文的自然选择学说是一种被人们广泛接受的生物进化学说。这种学说认为,生物要生存下去,就必须进行生存斗争。生存斗争包括种内斗争、种间斗争以及生物跟无机环境之间的斗争三个方面。在生存斗争中,具有有利变异的个体容易存活下来,并且有更多的机会将有利变异传给后代;具有不利变异的个体就容易被淘汰,产生后代的机会也少的多。因此,凡是在生存斗争中获胜的个体都是对环境适应性比较强的。达尔文把这种在生存斗争中适者生存,不适者淘汰的过程叫做自然选择。它表明,遗传和变异是决定生物进化的内在因素。自然界中的多种生物之所以能够适应环境而得以生存进化,是和遗传和变异生命现象分不开的。正是生物的这种遗传特性,使生物界的物种能够保持相对的稳定;而生物的变异特性,使生物个体产生新的性状,以致于形成新的物种,推动了生物的进化和发展。
遗传算法是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型。它的思想源于生物遗传学和适者生存的自然规律,是具有“生存+检测”的迭代过程的搜索算法。遗传算法以一种群体中的所有个体为对象,并利用随机化技术指导对一个被编码的参数空间进行高效搜索。其中,选择、交叉和变异构成了遗传算法的遗传操作;参数编码、初始群体的设定、适应度函数的设计、遗传操作设计、控制参数设定五个要素组成了遗传算法的核心内容。 作为一种新的全局优化搜索算法,遗传算法以其简单通用、鲁棒性强、适于并行处理以及高效、实用等显著特点,在各个领域得到了广泛应用,取得了良好效果,并逐渐成为重要的智能算法之一。
长度为L的n个二进制串bi(i=1,2,…,n)组成了遗传算法的初解群,也称为初始群体。在每个串中,每个二进制位就是个体染色体的基因。根据进化术语,对群体执行的操作有三种:
1.选择(Selection)
这是从群体中选择出较适应环境的个体。这些选中的个体用于繁殖下一代。故有时也称这一操作为再生(Reproduction)。由于在选择用于繁殖下一代的个体时,是根据个体对环境的适应度而决定其繁殖量的,故而有时也称为非均匀再生(differential reproduction)。
2.交叉(Crossover)
这是在选中用于繁殖下一代的个体中,对两个不同的个体的相同位置的基因进行交换,从而产生新的个体。
3.变异(Mutation)
这是在选中的个体中,对个体中的某些基因执行异向转化。在串bi中,如果某位基因为1,产生变异时就是把它变成0;反亦反之。
遗传算法的原理可以简要给出如下:
choose an intial population
determine the fitness of each individual
perform selection
repeat
perform crossover
perform mutation
determine the fitness of each individual
perform selection
until some stopping criterion applies
这里所指的某种结束准则一般是指个体的适应度达到给定的阀值;或者个体的适应度的变化率为零。
1.初始化
选择一个群体,即选择一个串或个体的集合bi,i=1,2,...n。这个初始的群体也就是问题假设解的集合。一般取n=30-160。通常以随机方法产生串或个体的集合bi,i=1,2,...n。问题的最优解将通过这些初始假设解进化而求出。
2.选择
根据适者生存原则选择下一代的个体。在选择时,以适应度为选择原则。适应度准则体现了适者生存,不适应者淘汰的自然法则。
给出目标函数f,则f(bi)称为个体bi的适应度。以
(3-86)
为选中bi为下一代个体的次数。
显然.从式(3—86)可知:
(1)适应度较高的个体,繁殖下一代的数目较多。
(2)适应度较小的个体,繁殖下一代的数目较少;甚至被淘汰。
这样,就产生了对环境适应能力较强的后代。对于问题求解角度来讲,就是选择出和最优解较接近的中间解。
3.交叉
对于选中用于繁殖下一代的个体,随机地选择两个个体的相同位置,按交叉概率P。在选中的位置实行交换。这个过程反映了随机信息交换;目的在于产生新的基因组合,也即产生新的个体。交叉时,可实行单点交叉或多点交叉。
例如有个体
S1=100101
S2=010111
选择它们的左边3位进行交叉操作,则有
S1=010101
S2=100111
一般而言,交叉幌宰P。取值为0.25—0.75。
4.变异
根据生物遗传中基因变异的原理,以变异概率Pm对某些个体的某些位执行变异。在变异时,对执行变异的串的对应位求反,即把1变为0,把0变为1。变异概率Pm与生物变异极小的情况一致,所以,Pm的取值较小,一般取0.01-0.2。
例如有个体S=101011。
对其的第1,4位置的基因进行变异,则有
S'=001111
单靠变异不能在求解中得到好处。但是,它能保证算法过程不会产生无法进化的单一群体。因为在所有的个体一样时,交叉是无法产生新的个体的,这时只能靠变异产生新的个体。也就是说,变异增加了全局优化的特质。
5.全局最优收敛(Convergence to the global optimum)
当最优个体的适应度达到给定的阀值,或者最优个体的适应度和群体适应度不再上升时,则算法的迭代过程收敛、算法结束。否则,用经过选择、交叉、变异所得到的新一代群体取代上一代群体,并返回到第2步即选择操作处继续循环执行。
图3—7中表示了遗传算法的执行过程
1.遗传算法从问题解的中集开始嫂索,而不是从单个解开始。
这是遗传算法与传统优化算法的极大区别。传统优化算法是从单个初始值迭代求最优解的;容易误入局部最优解。遗传算法从串集开始搜索,复盖面大,利于全局择优。
2.遗传算法求解时使用特定问题的信息极少,容易形成通用算法程序。
由于遗传算法使用适应值这一信息进行搜索,并不需要问题导数等与问题直接相关的信息。遗传算法只需适应值和串编码等通用信息,故几乎可处理任何问题。
3.遗传算法有极强的容错能力
遗传算法的初始串集本身就带有大量与最优解甚远的信息;通过选择、交叉、变异操作能迅速排除与最优解相差极大的串;这是一个强烈的滤波过程;并且是一个并行滤波机制。故而,遗传算法有很高的容错能力。
4.遗传算法中的选择、交叉和变异都是随机操作,而不是确定的精确规则。
这说明遗传算法是采用随机方法进行最优解搜索,选择体现了向最优解迫近,交叉体现了最优解的产生,变异体现了全局最优解的复盖。
5.遗传算法具有隐含的并行性
遗传算法在神经网络中的应用主要反映在3个方面:网络的学习,网络的结构设计,网络的分析。
1.遗传算法在网络学习中的应用
在神经网络中,遗传算法可用于网络的学习。这时,它在两个方面起作用
(1)学习规则的优化
用遗传算法对神经网络学习规则实现自动优化,从而提高学习速率。
(2)网络权系数的优化
用遗传算法的全局优化及隐含并行性的特点提高权系数优化速度。
2.遗传算法在网络设计中的应用
用遗传算法设计一个优秀的神经网络结构,首先是要解决网络结构的编码问题;然后才能以选择、交叉、变异操作得出最优结构。编码方法主要有下列3种:
(1)直接编码法
这是把神经网络结构直接用二进制串表示,在遗传算法中,“染色体”实质上和神经网络是一种映射关系。通过对“染色体”的优化就实现了对网络的优化。
(2)参数化编码法
参数化编码采用的编码较为抽象,编码包括网络层数、每层神经元数、各层互连方式等信息。一般对进化后的优化“染色体”进行分析,然后产生网络的结构。
(3)繁衍生长法
这种方法不是在“染色体”中直接编码神经网络的结构,而是把一些简单的生长语法规则编码入“染色体”中;然后,由遗传算法对这些生长语法规则不断进行改变,最后生成适合所解的问题的神经网络。这种方法与自然界生物地生长进化相一致。
3.遗传算法在网络分析中的应用
遗传算法可用于分析神经网络。神经网络由于有分布存储等特点,一般难以从其拓扑结构直接理解其功能。遗传算法可对神经网络进行功能分析,性质分析,状态分析。
遗传算法虽然可以在多种领域都有实际应用,并且也展示了它潜力和宽广前景;但是,遗传算法还有大量的问题需要研究,目前也还有各种不足。首先,在变量多,取值范围大或无给定范围时,收敛速度下降;其次,可找到最优解附近,但无法精确确定最扰解位置;最后,遗传算法的参数选择尚未有定量方法。对遗传算法,还需要进一步研究其数学基础理论;还需要在理论上证明它与其它优化技术的优劣及原因;还需研究硬件化的遗传算法;以及遗传算法的通用编程和形式等。
一、一维装箱问题的描述
一维装箱问题引可描述如下:
要将11个物品装入许多箱子(最多n个箱子)。每个物品有重量(Wj > 0)。每个箱子有重量限制(ci > O)。问题是寻找最好的将物品分配到箱子的方案,使得在每个箱子中物品的总重量不超过其限制,并且使用的箱子数量最少。
该问题可表示为:
重量及限制表
物品 | 1 | 2 | \ldots | n |
重量 | w_1 | w_2 | \ldots | w_n |
重量限制 | c_1 | c_2 | \ldots | c_n |
其中重量Wj和重量限制ci是正实数装箱问题的数学表示如下:
。
i\in N=\left\{1,2,\ldots,n\right\}。
。
yi=0或1 xij=0或1 。
其中yi = l表示箱子i被放入物品,反之则表示箱子i空着;Xij = 1表示物品j放入箱子i,反之表示物品j未放入箱子i。
基于基本遗传算法的求解方案。
由于近似算法有时并不能产生出一个优秀的装箱方案,在这里采用遗传算法进行优化。
(一)染色体表示
对于一维装箱问题,由于其装箱费用依赖于箱子中物体的群体,故在此问题中染色体的表示需要包含两个部分,其一应该提供哪个物品属于哪个箱子(群体)的信息,另外对使用的箱子进行编码。故采用基于群体的表示方法,其中一个基因表示一个箱子。
设有六个物品,从1到6对其进行编码,染色体物品部分可以写作1 4 2 3 2 5。表示第一个物品放入箱子1,第二个物品放入箱子4,第三个和第五个物品放入箱子2,第四个物品放入箱子3,第六个物品放入箱子5。染色体的群体部分仅表示箱子。下面我们采用字母而不是整数来表示箱子(比如,上述染色体可表示为ADBCBE)。通过查询物品部分,可知群体的名字代表的含义,即A={1),B=(3,5),c={4),D=(2),E=(6)。
包含两部分的染色体的集成用图表示如下:
(二)初始化种群
由于BFD算法对于很多数据均有较好的效果,所以本程序中把BFD算法作为一种方案放入初始的群体,这样就可能不失去一些优秀的解。
(三)选择算子
选择操作是建立在群体中个体的适应度的评估的基础上,在本算法中采用按正比与适应度的轮盘赌的方式进行随机选择,为了提高效率,选择轮盘时采用折半查找的方法,这样就能有效地减少比较次数,确保该过程的时间复杂度为0(log n)(n为种群大小)。
(四)杂交算子
因为染色体的表示包含两个部分:箱子和物品的群体。因此需要处理可变长度的染色体,故其杂交过程如下:
第一步:随机选择两个杂交位置,对每个父代选定杂交部分
第二步:将第一个父代杂交部分的内容插入到第二个父代第一个杂交位置之前。由于杂交对染色体的部分群体进行操作,这就意味着从第一个父代插入一些群体(箱子)到第二个父代中。
第三步:从产生的后代中原有的箱子中去掉所有重复出现的物品,使得这些物品原先的从属关系让位于“新”插入的箱子。因此产生的后代中的某些群体发生了改变。他们不再包含与先前相同的物品,原因是消除了一些物品。
第四步:改变两个父代的角色并重新应用第二步到第三步生成第2个子代。
杂交过程可用图表示:
(五)变异算子
装箱问题的变异算子必须针对箱子进行操作,一般有两种策略:启用一个新箱子或消除一个已经使用的箱子。
(六)适应度函数
装箱问题的目标是:最小化使用的箱子数量同时尽量装满所使用的箱子。根据此要求,本文采用玄光南等所编教材《遗传算法与工程优化》中提到的适应度函数。具体定义如下:
。
其中,N是解中使用的箱子数量,Fi是第i个箱子中所装有物品的重量之和,C是箱子的重量限制,k是常数(k>1)。常数k表示了对装得满的箱子的重视程度。k越大,装得满的箱子比一般填充的箱子受到的重视就越大。一般,k取值为2得到的结果较好。
二、求解步骤
(一)确定问题的解空间和个体的表现型
我们把染色体表示为含有物品和箱子两项信息的数据串。首先对待装物品进行编号1-n,对箱子进行编号1-k,按照物品编号顺序写出其所在箱子的编号序列即定义为染色体。具体含义在上节中介绍的比较详细,这里将不再赘述。
(二)建立优化模型,确定出目标函数
该问题表面上是要求得所用箱子的最小数目,其实是最大化利用资源的问题,故目标函数的类型应该是求最大值的。由此,我们采用的适应度函数为。
其中,N是解中使用的箱子数量,Fi是第i个箱子中所装有物品的重量之和,C是箱子的重量限制,k取值为2。
(三)确定遗传算子
见上节中对选择、交叉、变异三种遗传算子的设定,这里不再赘述。
(四)确定运行参数
本文中,我们设定交叉概率Pc = 0.7,变异概率Pn = 0.1,代数gen=100,种群大小n=100。
三、计算举例与结果分析。
为了阐明利用该算法的计算过程与结果,程序选定下列一组特殊数据:假设现有一个由l5个物体组成的物体队列和足够多的单位箱子,其中物体的重量如下:1-9号物品的重量:0.310-l5号物品的重量:0.2假设箱子容量为1,按照BFD算法,我们可以得到下列装箱方案:。
(O.3,O.3,O.3),(0.3,0.3,0.3),(0.3,O.3,O.3),(O.2,0.2,0.2,0.2,0.2),(0.2)共用了5个箱子。
我们把上述利用BFD算法产生的装箱方案作为利用遗传算法进行求解的初始群体,同时,我们取交叉概率Pc = 0.7,变异概率Pn = 0.1,代数gen=100,种群大小n--100。得出结果为:(0.3,0.3,0.2,0.2),(0.3,0.3,0.2,0.2),(0.3,0.3,0.2,0.2),(0.3,0.3,0.3)共四个箱子,显然结果比较理想。