![数学实验](https://wfqqreader-1252317822.image.myqcloud.com/cover/121/34259121/b_34259121.jpg)
2.4 含有定性变量的回归模型
在实际问题的研究中,经常会碰到一些非数值型变量,如分类变量:性别、学历、年级等。我们经常会考虑这些分类变量对研究结果的影响。通常也把这些分类变量称为定性变量。定性变量的回归在流行病学的回归中研究比较多。常用的情况是探索某类疾病的危险程度,根据危险因素预测某类疾病发生的概率等。
例2.6 某研究所人员的工资分析。
某研究所的职工工资如表2-20所示,请建立一个模型来分析该研究所的职工兼职管理、职称、工作年限与他们的工资之间的关系。
表2-20 某研究所职工的工资情况
![](https://epubservercos.yuewen.com/F94057/18338280601199206/epubprivate/OEBPS/Images/Figure-T59_130368.jpg?sign=1739141406-stUPauzT4LU37QAJGVE1BNBXalPMnADv-0-7026bdc5aaa3bfc4ffa5821ce198725d)
分析:通过建模来分析薪金和工作年限、职称、是否担任管理职务等的关系。薪金和工作年限是数值型变量。是否担任管理是用是否的形式。可以通过定义虚拟变量的形式实现:也就是用1代表担任管理、0代表不担任管理。职称是分类变量,也可以用虚拟变量表示。因为职称分为初级、中级、副高级和高级四个等级,可以用3个虚拟变量完成。
变量假设:,
,
,x4=
,x5代表工作年限,y代表工资。由上述假设可知,当变量x2=x3=x4=0时,代表初级职。
回归模型假设:
![](https://epubservercos.yuewen.com/F94057/18338280601199206/epubprivate/OEBPS/Images/Figure-P60_131553.jpg?sign=1739141406-REfrDX80Wmum8mzY3nOoZyIWmIjVueY6-0-523fe05fb4ec4b544a00b34d5b772d21)
由变量假设,将数据重新整理为表2-21。
表2-21 整理后的某研究所职工工资情况
![](https://epubservercos.yuewen.com/F94057/18338280601199206/epubprivate/OEBPS/Images/Figure-T60_130369.jpg?sign=1739141406-DKb8r7a8Ju1dF3ABIqaYRdTAoXkb5mzd-0-cd472da1acc4640dba7b47123b89ddf6)
续表
![](https://epubservercos.yuewen.com/F94057/18338280601199206/epubprivate/OEBPS/Images/Figure-T61_130370.jpg?sign=1739141406-de7HYf9RmSCdIdqGFMvTPfvyXkDKusP0-0-decbfbe5e636458d4a0703c710e9d545)
首先对数据进行初步分析,看工资是否有奇异值,画出编号与工资的散点图2-11。
由图2-12可知存在一个奇异点,对照表2-22可知编号为13号的工资明显高于其他数据非常多,不适于做回归分析,因此去掉该数据。
![](https://epubservercos.yuewen.com/F94057/18338280601199206/epubprivate/OEBPS/Images/Figure-P61_77748.jpg?sign=1739141406-jI2mx1A9jg41e0WgyYH2xVMLxOmD9zrp-0-e10b88f9c7e5c5b8e7e85d74ca0feb6c)
图2-12 编号与工资的散点
由模型汇总表2-22可知,R2=0.941,调整后的R2=0.857,p>0.001,从这几个指标看,模型整体可用。由模型系数表2-23可以看出,几个系数(i=0,1,2,3,4,5)均满足p<0.05,各系数均通过了检验。同时,所有系数95%的置信区间的值均不包含0点,是可以使用的。
表2-22 模型汇总
![](https://epubservercos.yuewen.com/F94057/18338280601199206/epubprivate/OEBPS/Images/Figure-T61_130371.jpg?sign=1739141406-z49HK88PllCfVKI6kSl2XC2vzn23Hi9F-0-7577f4dc745a64f711420b10ea2b4bfd)
注:a预测变量:(常量),x5,x2,x4,x3,x1。
表2-23 模型系数a
![](https://epubservercos.yuewen.com/F94057/18338280601199206/epubprivate/OEBPS/Images/Figure-T62_130372.jpg?sign=1739141406-90C9B64NwIkBLFA2IIY9a3IlhIzBdC1V-0-38a474068441da2ccc9435aa5519af68)
注:a. 因变量:y。
回归模型:
![](https://epubservercos.yuewen.com/F94057/18338280601199206/epubprivate/OEBPS/Images/Figure-P62_131556.jpg?sign=1739141406-ekkOlFymvXFKzs41qJmLnKCO3HBOqMGL-0-42fa531a1378358dc4201fd42070f01e)
模型的含义:一个不担任管理职务的初级职称的基本工资为8646.965元,在其他因素都不变的情况下,承担管理工作,工资增加2131.814元,其他因素都相同的前提下,中级职称比初级职称的工资多1489.231元,副高比初级职称工资高2981.754元,正高比初级职称的工作多6083.264元,其他因素都不变的情况下,工龄增加一年工资提高57.779元。定性变量作为因变量的回归通常称为Logistic回归,此时的因变量可以是二分类的,也可以是多分类的,实际问题中以二分类变量最常用。详细可以参考文献【2】。