
二 数据来源、变量设置与模型构建
(一)数据来源
本文所用数据来自国家卫生计生委2016年在全国31个省(区、市)和新疆生产建设兵团组织开展的全国流动人口抽样调查数据。该调查采用综合调查和专题调查相结合的方式,涉及家庭成员和收支情况、流动和就业、政府服务、留居和落户意愿等内容。调查对象为在本地居住一个月及以上,非本区(县、市)户口的男性和女性流动人口[截至2016年4月年龄为15周岁及以上,即2001年4月之前(包括4月)出生]。调查以全国为总体,采取分层、多阶段、与规模成比例等方法确定调查样本框。首先,各省份根据经济发展水平和地理地形标志对地级市[22]进行分层抽样,各地级市再按照经济发展水平对县(区)进行分层抽样。其次,各县(区)充分利用人口普查的资料,对所有村(社区)进行分层,再按照与规模成比例抽样方法,确定村(社区)样本。最后,再按照简单随机抽样方法,随机抽取调查样本。根据本文主要研究目的,剔除户口性质为非农业的流动人口样本,再删除数据缺失严重样本,得到农业转移人口留居和落户意愿样本53292份。
(二)变量设置
文献研究表明,经济因素是影响人口流动的主要因素,并且,由于区域经济发展不平衡,人口流动会呈现明显的区域特征[23],刘生龙[24]、王胜今等[25]采用城市化水平、城市等级、产业结构、流出范围等变量来衡量农业转移人口流动的区域和城市特征。借鉴既有研究,并根据样本特征,本文选取流入地城市等级、所在区域、流入时间、流动范围和流动方式作为衡量农业转移人口的流动特征。刘传江、程建林[26]认为,政府公共服务能够保障社会公众参与社会经济、政治等的权利,影响农业转移人口在城市的生活质量。李拓、李斌[27]研究了公共财政支出、基础设施、就业保障、住房保障和社会保险等对农业转移人口流动的影响,他们发现,政府服务能力是促进农业转移人口流动的重要因素。根据既有研究和所选样本特征,本文选取住房保障、就业保障和社会保险等相关变量来反映政府服务水平。为保证研究结果的信度,将引入农业转移人口个人特征和家庭特征变量作为控制变量。本文对主要变量的分类和内涵界定具体如下。
(1)婚姻状况:初婚和再婚归为已婚,其他为未婚;
(2)住房性质:将政府提供廉价房或公租房归类为由政府提供住房;
(3)流入地城市等级:主要根据《第一财经》在2018年最新公布的城市等级划分,北京、上海、广州、深圳等城市为一线城市,成都、武汉、南京等31个城市为二线城市,其他为三线及以下城市;
(4)岗位结构:专业技术人员、国家机关和党群组织办事人员、个体工商户等归为中高端岗位,其他为低端岗位;
(5)就业单位性质:将在机关事业单位、国有企业、集体企业等单位就业视为在公有制性质单位就业,其他视为在非公有制性质单位就业;
(6)长期居住意愿:指打算在本地长期居住5年及以上的意愿;
(7)落户意愿:指打算在本地长期居住的农业流动人口进行户籍转换的意愿(如表1所示)。
表1 变量设置及描述性统计分析

续表

(三)模型构建
现有文献对农业转移人口市民化意愿的分析,往往只针对长期居住意愿或者落户意愿的单一方面来进行分析,大多是通过OLS回归模型、二元或多元的Logistic模型和Probit模型等单方程模型来进行实证研究,这些单方程模型无法完整准确地考察政府服务、流动特征等对农业转移人口是否选择长期居住还是落户的影响。这是因为,当被调查者出于种种原因在是否愿意在本地长期居住和是否愿意在本地落户之间进行选择时,长期居住意愿和落户意愿这两种行为的决策并不是相互独立的,长期居住意愿显然会影响其落户意愿。如果对长期居住意愿和落户意愿分别建立Probit模型进行分析,虽然结果为一致但估计会存在效率损失。因此,不能用单方程模型来进行拟合,应该采用双变量Probit回归模型(Bivariate Probit Regression)来克服这种内生性关联问题。具体考察以下模型:

其中,y1∗与y2∗为不可观测的潜变量,分别表示农业转移人口的长期居住意愿和落户意愿,x1与x2分别表示影响农业转移人口长期居住意愿和落户意愿的流动特征及政府服务相关变量,扰动项(ε1,ε2)服从二维联合正态分布,期望值为0,方差为1,而相关系数为ρ,即:

作为可观测变量,农业转移人口的长期居住意愿y1和落户意愿y2由以下方程决定:

因为本文所研究的两个方程中的解释变量完全相同,即x1=x2,则方程(1)~(4)称为“双变量Probit”。由于本文探究农业转移人口的长期居住意愿和市民化意愿可能存在相关关系,故如果ρ=0,则可判定农业转移人口的长期居住意愿和市民化意愿之间不存在相关关系,此模型等价于两个单独的Probit模型,反之亦然。当ρ≠0时,可根据(y1,y2)的取值概率,进行最大似然估计。例如:

其中,ϕ(z1,z2,ρ)与ϕ(x′1,β1x′2,β2)分别为标准化的二维正态分布的概率密度函数和累积分布函数,期望为0,方差为1,而相关系数为ρ。类似地,可计算p00,p01,p02等,将这些概率取对数后加总,即得到对数似然函数。最后,对原假设“H0∶ρ=0”进行检验,可判断有无必要使用双变量Probit模型或者两个单独的Probit模型[28]。