区域抽样(Area Sampling)
目录
|
群体抽样的一种形式,样本空间按区域进行划分,选定某抽样区域,如一个县、一个行政区、一个街区,从中确定调查对象。
常用的区域抽样方法包括依据户籍资料的容量比例概率抽样法(probability proportionto size,PPS)、住户中抽取被访者、按居住地地图法抽样。
在实际抽样中,应用范围最广的多阶段抽样方法是分层多阶段区域抽样。只要研究总体能以区域进行划分,就可以采用分层多阶段抽样方法。
例如,调查某省城市居民的血压水平,这是一次全省性的调查,可以利用区域划分总体来进行分层多阶段抽样。
假设某省城市居民共有1000万人,计划抽取5000名居民,那么总的抽样比为
F=n/N=5000/10000000=0.0005
此次抽样为4级抽样,各级的抽样单位分别为市、区、居委会、居民。在全省按行政区划和地理位置抽取4个市,每个市抽取5个区,每个区抽取5个居委会,每个居委会抽取50名居民,即样本规模为
4×5×5×50=5000(人)
结合调查地区的经济水平和地理位置,将初级抽样单位分为4个层次。假设某一层的居民总数为100万人,那么按照比例分配样本,该层的样本规模为
1000000×0.0005=500(人)
取层内初级抽样单位数目n为4,那么市的子样本人数为500÷4=125(人),区的子样本人数为125÷5=25(人),居委会的子样本人数为25÷5=5(人)。
①对层内的初级抽样单位进行排序:从普查资料或其他部门的相关资料中,获得初级抽样单位的规模测量值,然后按一定方式将各层内的初级抽样单位排列起来。排列方式主要有以下两种:一是事先获得初级抽样单位的某个与测量变量密切相关的变量信息,将初级抽样单位按这个变量值排列,例如按每个县学生的身高进行排序;二是将各个初级抽样单位在地图上用线串起来,然后根据此线穿过初级抽样单位的先后顺序进行排列。
②按层内初级抽样单位的排列顺序,将规模测量值进行累加。
③采用系统抽样方法:首先计算抽样间距
K=该层规模测量值的总和/层内初级抽样单位数目此例中
K=1000000/4=250000
④然后在1~250000的范围内随机抽取一个数a作为起点,再抽出n个初级抽样单位。那么抽中的号码分别为a,a+K,…,a+(n-1)K。
此例中假设抽取了随机数字57890,那么抽中的号码依次是57890、307890、557890、807890。因此,相对应的4个市被抽中。具体数据参见表。
PSU序号 | 规模测量值 | 累积规模测量值 | 抽中的号码 |
1 | 112897 | 112897 | 57890 |
2 | 101210 | 214107 | |
3 | 127642 | 341749 | 307890 |
4 | 138869 | 480618 | |
5 | 137978 | 618596 | 557890 |
6 | 129976 | 748572 | |
7 | 135679 | 884251 | 807890 |
8 | 115749 | 1000000 |
第二级抽样是从每个被抽中的市里抽取5个区。第三级抽样是从每个被抽中的区中各抽取5个居委会。第四级抽样是从每个被抽中的居委会抽取一定数量的样本。计划样本量为前面计算过的5。第四级抽样的抽样比为计划样本量除以第α市内第β区的第γ居委会的规模测量值。那么,第四级抽样的期望样本量为该阶段的抽样比乘以实际居委会规模数。假设此时某抽中居委会的规模测量值为80,而实际规模测量值为128,则该居委会实际应抽取的居民数为
d=5/80×128=8(人)
确定各级抽样单位数目时主要考虑两方面因素的影响:一是各阶段抽样总体的性质,包括总体的规模和异质性程度。一般来说,总体规模越大,样本规模越大。但是,当总体增长到一定数量时,样本的增长速度则远远跟不上,变化不明显,这在前面的章节中已有过详细介绍。总体的异质性较高,样本规模越大,反之亦然。此外,还要考虑到研究者所拥有的人力、物力和时间。在其他条件不变的前提下,抽样的初级抽样单位越多,样本覆盖面越广,代表性也就越好。但这也意味着要花费的人力、物力和时间越多。
6.PPS抽样中应注意的问题
在某些情况下,抽样单位的规模可能比抽样间距大,那么,无论随机抽样的起点在哪里,该抽样单位都可能被抽中,而且可能被抽中两次。解决这个问题的方法有两个:一是如果该抽样单位被抽中两次,将其视为两个抽样单位,并从中选取两倍的次一级抽样单位;另一种方法是找出规模大于抽样间距的抽样单位,让它们组成一个独立的层,然后按总抽样比计算该层的样本规模,再抽取次一级抽样单位。
区域抽样中往往采用多阶抽样方法,抽样单位依次为市(地区)—县—乡(区)—村(街道)—居民组(居委会)—住户。研究者以家庭为分析单位,收集相关资料。在实际调查中,不仅需要抽取住户为样本,同时还要在住户中抽取一名成年人作为访谈对象,这就是户内抽样(within.householdsampling)。下面介绍比较常用的户内抽样中的Kish选择法,利用这种方法,抽取的每户家庭中所有成年人(例如,18岁以上者)被抽中成为样本的概率相等。
Kish选择法的具体步骤如下:
研究者首先编制8种不同的抽样表,编号分别为A、B1、132、C、D、E1、E2、F,相应的每种表的数量分别占抽样表总数的1/6、1/12、1/12、1/6、1/6、1/12、1/12、1/6。每份问卷都有一种抽样表,因此问卷也被分成8种。抽样表的格式见表。
住户中18岁
以上人口数 | 抽
取 成 年 住 户 成 员 的 号 码 | 抽样表的次序 | ||||||
A | B1 | B2 | C | D | E1 | E2 | F | |
1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
2 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 |
3 | 1 | 1 | 1 | 2 | 2 | 3 | 3 | 3 |
4 | l | 1 | 2 | 2 | 3 | 3 | 4 | 4 |
5 | 1 | 2 | 2 | 3 | 4 | 3 | 5 | 5 |
≥6 | 1 | 2 | 2 | 3 | 4 | 5 | 5 | 6 |
首先,研究者要将住户成员的基本情况进行完整记录,包括年龄、性别、与户主关系。然后,对每户家庭的成年人进行编号和排序,排序的基本原则是男性在前,女性在后;年纪大的在前,年纪小的在后。也就是最年长的男性排在第一,依次是次年长的男性,第三年长的男性,以此类推。最年长的女性排在最年幼的男性之后,其他女性依次排序。例如,某户家庭成员中的成年人有祖父、祖母、父亲、母亲、儿子,那么排序依次为祖父、父亲、儿子、祖母和母亲。
研究员可以根据抽样表,从住户成员情况登记表上抽取访问对象。例如,某住户的成年人共有5名,排序为:祖父、父亲、儿子、祖母、母亲。若调查表为A类,则抽取祖父;若调查表为B1、B2类,则抽取父亲;若调查表为C、E1类,则抽取儿子;若调查表为D类,则抽取祖母;若调查表为E2、F类,则抽取母亲。
抽样调查中研究者应尽可能完整地将所有家庭成员的情况填入登记表中,这样研究者不仅可以收集到家庭资料,也可以获得被调查家庭成员的个人资料。按照这种方法获得的样本,在性别、年龄、文化程度等方面的分布往往接近于总体人群的分布,因此,可以利用这些资料来描述该抽样区域内居民的总体状况。
在区域抽样中,抽取住户时需要一份完整的居民名单作为抽样框,通常是根据户籍资料制定的。如果现有的户籍资料不完整,或没有现有的户籍资料时,可以利用居住地地图法进行抽样。
按居住地地图法抽样的具体步骤如下:
按一定的准则对将要抽样的城区、街道等行政区域进行分层,分层数目根据需要而定,然后在每层内抽取所需的样本。
首先要注意地图的出版日期。由于地图的时效性强,更新非常快,所以要注意资料的日期,最好能找到最新出版的地图。同时,还应注意地图的比例尺。一般来说,地图比例尺愈大,误差愈小,图上测量精度愈高。但太精密的地图一般是由专业部门使用,不太适合抽样时使用。因此,要根据实际情况选择合适的地图。研究表明,研究者使用1/25000的地图时误差较小,不超过5户。
在选定的地图上绘制二维网格,再根据一定规则从地图上抽取一些二维坐标点。然后,到实地进行考察,根据实地的地理位置、地貌状况,对坐标点进行恰当的修正,尽量减少偏差。
在调查开始之前,应对调查员进行培训。让其了解研究的目的、实施的步骤等,以减少在工作中出现的误差。调查员应熟悉地图上的坐标点,对调查区域的情况有个初步了解。还要对调查员进行步测训练。在不适合用尺测量距离时,就可通过调查员的步伐数计算大致距离。具体做法是:让调查员在200米长的直线跑道上来回走几次,记录下步伐数和时间,计算出每个调查员每步的平均距离。
按照一定原则确定坐标点的调查顺序,调查员按该顺序对坐标点进行调查。调查员应到实地将实地坐标点的地理位置、地貌状况一一记录。
每个坐标点对应的是一个样本户,如果坐标点对应的是楼房,则用随机的方法选取该楼上的一个住户进行调查。这里的“户”是指以邮差送信地址为单位的户。例如,几个人合租了一套房子,他们用相同的邮政地址,那么合租的几人都应被视为是这一“户”的成员。也就是说,利用居住地地图法抽样的总体是由那些人们居住的地址形成的“户”组成的。
还可以采用整群抽样。各坐标点对应的户成为首户,从首户开始,按门牌号,相邻的若干户形成一个群,再对整群进行调查。