抽样方法
不同抽样方法各有千秋。抽样方法的选取,取决于研究目的和对性价比的考量。
抽样调查可以分为两类,即概率抽样和非概率抽样。概率抽样是按照随机原则进行抽样,不加主观因素,组成总体的每个单位都有被抽中的概率(非零概率),可以避免样本出现偏差,样本对总体有很强的代表性。非概率抽样是按主观意向进行的抽样(非随机的),组成总体的很大部分单位没有被抽中的机会(零概率),使调查很容易出现倾向性偏差。—— 抽样调查的主要方法
概率抽样
- 简单随机抽样,需要抽样框(有关总体全部单位的名录)当样本量N很大时,构造这样的抽样框并不容易。且根据这种方法抽出的个体较为分散,会给后续调查实施增加困难。因此,在规模较大的调查中很少直接采用简单随机抽样,一般是把这种方法和其他抽样方法结合起来使用。
- 分层抽样(类型抽样),它首先将要研究的总体按某种特征或某种规则划分为不同的层(组),然后按照等比例或最优比例的方式从每一层(组)中独立、随机地抽取个体,最后将各层的样本结合起来对总体的目标量进行估计。优点是抽样误差小,缺点是不适用当总体无法彻底划分为不相交的子组时的场景。
- 整群抽样(集团抽样),理论上要求群内差异大,群间差异小(每个群抽到哪个都差不多,希望群内差异大,蕴含信息量大)。首先,抽取样本时只需要群的抽样框,而不必要求包括所有单位的抽样框。这大大简化了编制抽样框的工作量;其次,由于群通常是由那些地理位置邻近的或隶属于同一系统的单位所构成,因此调查的地点相对集中,从而节省了调查费用,方便了调查的实施。其主要缺点是估计的精度较差,因为同一群内的单位或多或少有些相似,在样本量相同的条件下整群抽样的抽样误差通常比较大。
- 系统抽样(等距抽样、机械抽样),它是将总体N个个体按某种顺序排列,按规则确定一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。典型的系统抽样是先从数字1-k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k,…。系统抽样的主要优点是操作简便,如果有辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度;缺点是对估计量方差的估计比较困难(因为样本单位间的相关性?)。
- 多阶段抽样,将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将各种抽样方法结合使用。每增加一个抽样阶段,就会增添一份估计误差。
非概率抽样
- 方便抽样(便利抽样、偶遇抽样),主要用于初期评估的探索性研究。调查过程中由调查员依据方便的原则自行确定抽入样本的个体。
- 判断抽样,调查者根据主观经验和判断从总体中选取有代表性的个体构成样本的一种非概率抽样方法。它不能获得估计值的精度,其精度取决于抽样者的经验,适用于总体中的个体极不相同而样本容量又很小的情况。
- 自愿抽样,指被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息。它可以反映某类群体的一般看法。
- 滚雪球抽样,先找到最初的样本,然后根据他们提供的信息去获得新的个体形成样本。这种过程不断继续,直到完成规定的样本容量为止。滚雪球抽样常用于对稀少的特定群体的调查。
- 配额抽样,非概率版的分层抽样。配额抽样,非概率版的分层抽样。调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内主观地任意抽选样本的抽样方式。
抽样误差
- 抽样误差,是随机性误差,只存在概率抽样中存在,可以计算并控制!普查的 Sample Error 为 0. 估计总体均值时 $E=z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$, 估计总体比例时 $E=z_{\alpha/2}\sqrt{\frac{\pi(1-\pi)}{n}}$, 移项即可计算出样本量 $n$. ⚠️注意!在计算某抽样调查所需样本量 $n$ 时,抽样调查还没开始!还不知道样本标准差 $s$ 和样本比例 $p$, 故抽样误差的计算公式中使用的是总体参数。
- 最主要与样本量大小有关;
- 其次还与总体变异性、抽样方法(有放回和无放回差个修正系数)、抽样调查的组织形式、辅助信息的使用(如分层抽样中的分层依据)和抽样框的准确性等因素有关。
- 非抽样误差,与样本随机性无关,因而在概率抽样和非概率抽样中都存在。不能通过增大样本容量来控制,仅能通过调查过程的质量控制来控制
- 抽样框误差,仅在概率抽样中存在。指目标总体和抽样总体不一致时产生的误差。目标总体是指调查研究对象的全体,而抽样总体是从目标总体中抽选样本的总体。
- 丢失目标总体单元
- 包含非目标总体单元
- 复合连接,抽样框中的单元与总体目标单元不完全是一对一连接
- 不正确的辅助信息等
- 回答误差
- 理解误差
- 记忆误差
- 有意识误差
- 无回答误差
- 调查员误差
- 测量误差
- 抽样框误差,仅在概率抽样中存在。指目标总体和抽样总体不一致时产生的误差。目标总体是指调查研究对象的全体,而抽样总体是从目标总体中抽选样本的总体。
有无放回、有序无序,共四种情况
无序抽样使用 $C$ 组合;有序抽样使用 $A$ 排列。还是很好理解的。
是否放回,决定了:
- 样本是否可能重复
- 所抽取的样本间是否独立
- 抽样时总体数量是否发生变化
...