刘展, 周青, 李若菡, 潘莹丽
大数据与网络的发展使得非概率样本的获取越来越方便, 然而非概率样本入样概率未知, 难以推断总体. 另一方面, 概率样本入样概率已知, 具有总体的代表性, 然而其成本与无回答率逐年上升, 甚至可能出现其目标变量缺失的情况. 当存在目标变量缺失的概率样本和数据完整的非概率样本时, 如何结合两个样本来估计总体值得研究. 针对此问题, 提出基于非概率样本建立非参数超总体局部多项式模型预测概率样本缺失的目标变量, 建立倾向得分模型估计非概率样本的入样概率, 进一步估计非参数超总体局部多项式模型的预测误差, 最终获得总体估计. 模拟和实证研究结果表明, 与插补法估计和倾向得分逆加权估计相比, 无论非参数超总体局部多项式模型或倾向得分模型建立正确与否, 提出估计的绝对相对偏差, 标准差, 均方误差基本上均是最小的, 且其Bootstrap方差估计也较小, 估计效果较好.