抽样(Sampling)
目录
|
抽样就是从研究总体中选取一部分代表性样本的方法。例如我们要研究某城市居民的生活方式问题,那么整个城市居民都是我们的研究对象。但限于研究条件等原因,我们难以对每一个居民进行调查研究,而只能采用一定的方法选取其中的部分居民作为调查研究的对象,这种选择调查研究对象的过程就是抽样。采用抽样法进行的调查就称为抽样调查。抽样调查是最常用的调查研究方法之一,它已被广泛应用到社会调查、市场调查和舆论调查等多个领域。
抽样对调查研究来说至关重要。社会科学研究的对象通常是非常复杂的,涉及到社会生活的方方面面,既包括个体行动者,也包括群体甚至整个社区或社会。但在大多数情况下,我们难以对全部的对象做研究,而只能研究其中的一部分。对这部分研究对象的选择就要依靠抽样来完成,如此可以节省研究的成本和时间。但我们的研究又不是停留在所选取的样本本身,而是通过对有代表性的样本的分析来研究总体。故抽样的目的,就是从研究对象总体中抽选一部分作为代表进行调查分析,并根据这一部分样本去推论总体情况。
抽样已发展出了自己的一套专门术语,主要包括如下一些:
1、总体或抽样总体(population)
总体(population)通常与构成它的元素共同定义:总体是指构成它的所有元素的集合,而元素则是构成总体的最基本单位。在社会研究中,最常见的总体是由社会中的某些个人组成的,这些个人便是构成总体的元素。
比如,当我们开展对某省大学生的择业倾向进行研究和探讨时,该省所有在校大学生的集合就是我们研究的总体,而每一个在校大学生便是构成总体的元素。又比如,我们打算研究某城市居民的家庭生活质量,那么,该市所有的居民家庭就构成我们研究的总体,而其中的每一户家庭都是这个总体中的一个元素。
2、样本(sample)
样本与总体相对应,是指用来代表总体的单位,样本实际上是总体中某些单位的子集。样本不是总体,但它应代表总体,以抽样的标准就是让所选择的样本最大程度地代表总体。
3、抽样单位或抽样元素(sampling unit/element)
抽样单位或抽样元素是指收集信息的基本单位和进行分析的元素。在社会科学研究中,常用的抽样单位是个体的人,它也可以是一定类型的群体或组织,如家庭、公司、居委会、社区等。抽样单位与抽样元素有时是一致的,有时是不一致的。如在简单抽样中,它们是一致的,但在整群或多阶段抽样中,抽样单位是群体,而每个群体单位中又包含许多抽样元素。
4、抽样框(sampling frame)
抽样框又称做抽样范围,它指的是抽样过程中所使用的所有抽样单位的名单。比如,从一所中学的全体学生中,直接抽取200名学生作为样本。那么,这所中学全体学生的名单就是这次抽样的抽样框;如果是从这所中学的所有班级中抽取部分班级的学生作为调查的样本,那么,此时的抽样框就不再是全校学生的名单,而是全校所有班级的名单了。
5、参数值与统计值
参数值(parameter)也称总体值,是指反映总体中某变量的特征值。例如某地所有职工的平均收入水平和总体收入等都是参数值。但参数值多是理论值,难以具体确定。通常是根据样本的统计值来推论总体的参数值。
统计值(dstatistic)也称样本值,是指对样本中某变量特征的描述。它通常是实际统计分析的数值。例如,根据某一样本资料可计算其平均收入水平、构成比例等。用样本统值去推论参数值时,二者是一一对应的。下表列出了常见的一些特征值:
参数值 | 统计值 | |
---|---|---|
定义 | 反映总体特征的指标 | 反映样本特征的指标 |
特征值 | N (总体数) μ(总体均值) σ(总体标准差) P(总体成数) | n(样本数) (样本均值) s(样本标准差) p(样本成数) |
6、抽样误差(sampling error)
样本统计值与所要推论的总体参数值之间的均差值就称为抽样误差。这是由抽样本身产生的误差,它反映的是样本对总体的表性程度,故又称代表性误差。我们在下面将结合样本数的确定再做具体讨论。
7、置信水平与置信区间(confidence 1evel and interval)
置信水平和置信区间是与抽样误差密切相关的两个概念。置信水平,又称置信度,是指总体参数值落在某一区间内的概率。
而置信区间是指在某一置信水平下,用样本统计值推论总体参数值的范围。其大小与误差密切相关,置信区间越大,误差也越大。
根据概率论原理常用的抽样形式主要分为随机抽样和非随机抽样两大类。二者的区别在于:前者按照随机原则来抽取样本,而后者不按随机原则抽取样本。
(一)随机抽样
随机抽样又称概率抽样,是指严格按照随机原则来抽取样本,要求总体中每个单位都有被抽取的同等机会。由随机抽样所抽取的样本称为随机样本,这类样本具有较高的代表性。随机抽样法又分为下列五种不同的抽样方法:
1、简单随机抽样
简单随机抽样,也称纯随机抽样,是指按照随机原则从总体单位中直接抽取若干单位组成样本。它是最基本的概率抽样形式,也是其他几种随机抽样方法的基础。
2、等距随机抽样
等距随机抽样也称机械随机抽样或系统随机抽样,是指按照一定的间隔,从根据一定的顺序排列起来的总体单位中抽取样本的一种方法。具体做法是:首先将总体各单位按照一定的顺序排列起来,编上序号;然后用总体单位数除以样本单位数得出抽样间隔;最后采取简单随机抽样的方式在第一个抽样间隔内随机抽取一个单位作为第一个样本,再依次按抽样间隔做等距抽样,直到抽取最后一个样本为止。
3、分层随机抽样
分层随机抽样,也称类型随机抽样,是指首先将调查对象的总体单位按照一定的标准分成各种不同的类别(或组),然后根据各类别(或组)的单位数与总体单位数的比例确定从各类别(或组)中抽取样本的数量,最后按照随机原则从各类(或组)中抽取样本。
4、整群随机抽样
整群随机抽样,又称聚类抽样,是先把总体分为若干个子群,然后一群一群地抽取作为样本单位。它通常比简单随机抽样和分层随机抽样更实用,像后者那样,它也需要将总体分成类群,所不同的是,这些分类标准往往是特殊的。具体做法是:先将各子群体编码,随机抽取分群数码,然后对所抽样本群或组实施调查。因此,整群抽样的单位不是单个的分子,而是成群成组的。凡是被抽到的群或组,其中所有的成员都是被调查的对象。这些群或组可以是一个家庭、一个班级,也可以是一个街道、一个村庄。
5、分段随机抽样
分段随机抽样,也称多段随机抽样或阶段随机抽样,是一种分阶段从调查对象的总体中抽取样本进行调查的方法。它首先要将总体单位按照一定的标准划分为若干群体,作为抽样的第一级单位;再将第一级单位分为若干小的群体,作为抽样的第二级单位;以此类推,可根据需要分为第三级或第四级单位。然后,按照随机原则从第一级单位中随机抽取若干单位作为第一级单位样本,再从第一级单位样本中随机抽取若干单位作为第二级单位样本,以此类推,直至获得所需要的样本。
(二)非随机抽样
在实际的调查过程中,还有一类抽样方法,称之为非随机抽样,即它不是严格按照随机原则抽取样本,而是根据调查者的主观经验和主观判断选择样本的。
与随机抽样相比,虽然这类非随机动抽样的代表性差,提供的资料信息较零散,难以从样本调查的结论中对总体做出准确的推断。但是,由于它非常简便易行,并能通过对样本的调查而大致了解总体的某些情况,对调查研究工作很有启发性。因此,它适用于那种调查对象的总体难以具体界定,以及不需要准确推断总体情况的调查。常用非随机抽样的方法主要有以下几种:
1、偶遇抽样
偶遇抽样,也称方便抽样,是指调查者将自己在特定场合下偶然遇到的对象作为样本的一种方法。如在商店门口、街头路口、车站码头、公园广场等公共场所,随便选取某些顾客、行人、旅客、观众等作为样本进行调查研究.这种方法比较简单方便,适用于探索性研究,但样本的代表性较差,具有很大的偶然性。
2、立意抽样
立意抽样,也称主观抽样,它是调查者根据自己的主观印象、以往的经验和对调查对象的了解来选取样本的一种方法;这种抽样适用于那些总体范围较小、总体单位之间的差异较大的调查。
这种主观抽样所抽取的样本是否具有代表性、所得出的结论是否准确,完全取决于调查者本人的判断能力,以及对调查对象的了解程度。因此这种方法具有很大的主观随意性。但是当对总体状况较为熟悉时,用这一抽样法所选择的样本也有较高的代表性。例如当在们对某一群体作调查时,就可以根据我们所了解的群体情况选取某些样本做研究。
3、配额抽样
配额抽样,也称定额抽样,即调查者首先确定所要抽取样本的数量,再按照一定的标准和比例分配样本,然后从符合标准的对象中任意地抽取样本。其方法类似于分层随机抽样,但它不是按照随机原则抽取样本。例如,我们可以根据研究目的,把总体按性别、民族等变量进行分组,然后分配相应的样本数选取样本。
这种配额抽样比前两种方法所抽取的样本更有代表性,而且简便易行,在民意调查中经常使用。但这种方法也具有很大的主观随意性和局限性,如盖洛普采用此抽样法曾几次成功地预测了美国的总统大选,但在1948年总统选举的民意调查中却失败了。现在,人们有时把这一方法与随机抽样法结合起来使用,其效果会更好些。
4、滚雪球抽样
滚雪球抽样,即以少量样本为基础,逐渐扩大样本的规模,直至找出足够的样本。此法适用于对调查总体不甚清楚的情况,常用于探索性的实地研究,特别适用于对小群体关系的研究。例如我们要了解某个人经常交往的社会圈子,就可以通过这个人提供的线索找到更多与他有关联的人。
其具体做法是,先找到一个或几个符合研究目的的对象,然后再根据这些对象所提供的线索找另外相关的对象,依次进行,直至达到研究目的。但滚雪球抽样法所选择的样本有时会有很大的随意性和特殊性,因而代表性不高。
在社会科学研究过程中,抽样是必不可少的重要环节。这就要求必须做好抽样设计,使所选择的样本具有代表性。抽样设计就是确定抽样的原理与形式、程序和方法等。其基本原则是:第一,目的性,即根据研究目的进行抽样设计;第二,可度量性,即根据样本值能做出有效的估计;第三,可行性,即在实际操作中能按预定的设计完成任务;第四,经济性,即以最小的代价去实现抽样的目的。
(一) 抽样的原理与形式
抽样通常分为概率抽样和非概率抽样两大类,但以概率抽样为主。概率抽样的基本原理首先是概率论的随机原理,所谓随机原理,是指抽取样本时必须严格遵循一定方法和规则,使得总体中每一个对象都有相同的机会被选入样本。这又称为等概率抽样。因为只有按照随机原则进行抽样,所抽出的样本才有充分的代表性,也才可以对抽样误差做出准确的计算,以估计它的可信度。
概率抽样的理论基础就是概率论。我们通常把因果关系分为两种:一种是必然性的因果关系,即若A,则必然B;另一种是随机性的因果关系,即若A,则可能B。大量的社会现象都是随机现象。研究随机现象的数学分支学科是概率论。概率是事物发生的可能性大小的量度。在概率论中,把不可能发生的事件的概率称为最小概率,定为0,而把必然发生的事件的概率称为最大概率,定为1。那么事件A出现的概率P(A)在0与l之间,即随机事件发生的可能性在0到1之间,是个非负数。
(二) 抽样的基本程序
按照一定原则进行抽样时,大致可包括如下几个步骤:
1、界定总体
界定总体包括明确总体的范围、内容和时间。实际调查的总体与理论上设定的总体会有所不同,总体越复杂,二者的差别越大。例如,要研究某地青少年的犯罪状况,理论上的总体是这一地区符合一定条件的所有的青少年,但实际上我们能够抽样的总体并不能全部包括,也就是说只能根据我们所能够掌握的这一地区符合一定条件的青少年进行抽样。因此,抽样总体有时不等于理论上的研究总体,样本所代表的也只是明确界定的抽样总体。此外,由于调查研究内容的不同,对总体的限定也会有所不同。
2、确定抽样框
这一步骤的任务就是依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并通过对名单进行统一编号进而组合成一种可供选择的形式,如名单、代码、符号等。抽样框的形式受总体类型的影响:简单的总体可直接根据其组成名单形成抽样框;但对构成复杂的总体,常常根据调查研究的需要,制定不同的抽样框,分级选择样本。例如,进行全国人口抽样调查,先以全国的省市为抽样框选部分省、市为调查单位,然后再以这些省、市中的各县、区为抽样框选部分县、区为调查单位,这样依次到村或居委会。
在概率抽样中,抽样框的确定非常重要,它会直接影响到样本的代表性。因此,抽样框要力争全面、准确。
3、样本设计
样本设计包括确定样本规模和选择抽样的具体方式。抽样的目的是用样本来代表总体,自然样本数越大,其代表性越高。但样本数越大,调查研究的成本也越大。因此,确定合适的样本规模和抽样方式是抽样设计中的一项重要内容。我们在第三节中杵详细讨论这一问题。
4、评估样本质量
评估样本质量即通过对样本统计值的分析,说明其代表性或误差大小。对样本代表性进行评估的主要标准是准确性和精确性:前者是指样本的偏差,偏差越小,其准确性越高;后者是指抽样误差,误差越小,其精确性或代表性越高。