工资收入差异分析 为了考察工资收入是否与性别,年龄,学历,企业规模有关,我们建立计量经济学模型对其进行分析判断和预测,因国内数据不好查找,我们在这个模型中就引用日本的数据建立模型。 下表列出的15个工人月收入以及相应的性别,年龄层(30多岁与40多岁),学历(大学毕业,高中毕业,初中毕业),企业规模(大型企业,中型企业,小型企业)之间的关系。根据这些定性数据,通过这些定性数据,通过小面问题分析收入差距的原因。 为了将定性数据作为解释变量纳入模型,引入下面六个虚拟变量。根据下表制作虚拟变量的数据表。 性别 S S=1 男性 S=0 女性 年龄A A=1 40多岁 A=0 30多岁 学历(1) E1`=1 大学毕业 E1=0 其他 学历(2) E2=1 高中毕业 E2=0 其他 企业规模(1) F1=1 大型企业 F1=0 其他 企业规模(2) F2=1 中小型企业 F2=0 其他 设定模型 Y=α+β1S+β2A+β3 E1 +β4 E2 +β5 F1 +β6 F2 +u α>0 , β1>0 , β2>0 , β3>0 , β4>0 , β5>0 , β6>0 估计模型的参数,检验参数和整体模型并对模型进行修正 计算下列属性所对应的月收入 a)大型企业中40多岁男性大学毕业工人的月收入Ya b)中型企业中30多岁女性大学毕业工人的月收入Yb c)小型企业中30多岁男性初中毕业工人的月收入Yc 表1 月收入与性别、年龄层、学历、企业规模之间的关系 月收入(万日元) 性别 年龄层 学历 企业规模 25 女性 40多岁 初中毕业 小企业 26 男性 30多岁 初中毕业 小企业 28 女性 40多岁 高中毕业 小企业 30 女性 40多岁 高中毕业 小企业 31 男性 30多岁 初中毕业 中企业 32 男性 30多岁 高中毕业 小企业 34 女性 30多岁 大学毕业 中企业 36 男性 30多岁 高中毕业 中企业 39 女性 30多岁 大学毕业 大企业 40 男性 30多岁 高中毕业 中企业 43 男性 30多岁 大学毕业 小企业 46 男性 30多岁 大学毕业 中企业 52 男性 40多岁 初中毕业 大企业 54 女性 40多岁 大学毕业 大企业 55 男性 40多岁 高中毕业 大企业
表2 制作虚拟变量处理后的数据表 月收入(万日元)Y 性别S 年龄层A 学历 企业规模 大学毕业E1` 高中毕业E2 大型企业F1 中型企业F2 25 0 1 0 0 0 0 26 1 0 0 0 0 0 28 0 1 0 1 0 0 30 0 1 0 1 0 0 31 1 0 0 0 0 1 32 1 0 0 1 0 0 34 0 0 1 0 0 1 36 1 0 0 1 0 1 39 0 0 1 0 1 0 40 1 0 0 1 0 1 43 1 0 1 0 0 0 46 1 0 1 0 0 1 52 1 1 0 0 1 0 54 0 1 1 0 1 0 55 1 1 0 1 1 0
参数估计 表3 最小二乘估计 Dependent Variable: Y Method: Least Squares Date: 12/15/03 Time: 20:14 Sample: 1986 2000 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. C 11.96613 1.694604 7.061317 0.0001 S 14.38476 1.238761 11.61222 0.0000 A 12.64252 1.519607 8.319597 0.0000 E1 15.87300 1.466859 10.82108 0.0000 E2 5.082785 1.119298 4.541047 0.0019 F1 12.15240 1.326189 9.163398 0.0000 F2 5.543744 1.196137 4.634706 0.0017 R-squared 0.983316 Mean dependent var 38.06667 Adjusted R-squared 0.970802 S.D. dependent var 10.06029 S.E. of regression 1.719035 Akaike info criterion 4.226127 Sum squared resid 23.64064 Schwarz criterion 4.556551 Log likelihood -24.69596 F-statistic 78.58178 Durbin-Watson stat 2.283073 Prob(F-statistic) 0.000001 有表3的数据可以得出以下估计结果: Y = 11.966 + 14.385S + 12.643A + 15.873E1 + 5.083E2 + 12.152F1 + 5.544F2 (7.061) (11.612) (8.320) (10.821) (4.541) (9.163) (4.635) _ R2 = 0.9708 (1)经济意义检验 所有的参数都为正数,即性别、年龄、学历和所在企业的大小对月收入有正面的影响,符合经济意义。 (2)统计推断检验 (a)拟和优度检验 可决系数R2 = 0.983316 说明模型在整体上拟和很好,Y 的总差由模型作出了绝大部分解释。 _ R2 = 0.9708也说明模型中各个解释变量对应变量的联合影响程度很大 (b)回归参数的显著性检验——T检验 在显著性水平a=0.01条件下ta/2 (n-k)= ta/2 (15-6) =3.250 模型估计的各参数的T值都大于3.250。说明各个解释变量对应变量的影响都是显著的。即性别,年龄,学历,企业大小对月收入有显著影响。 (c)回归方程的显著性检验——F检验 在显著性水平a=0.01条件下,F0。01(k-1,n-k)= F0。01 (6-1,15-6)=6.06 模型中的F-statistic=78.5819 大于6.06,说明回归方程显著,即各个解释变量同应变量之间存在显著的线性关系。 (3)计量经济学检验 (a)多重共线性检验 表4 Correlation Matrix S A E1 E2 F1 F2 S 1.000000 -0.444444 -0.288675 0.111111 -0.123091 -0.288675 A -0.444444 1.000000 -0.288675 0.166667 0.430820 -0.577350 E1 -0.288675 -0.288675 1.000000 -0.577350 0.213201 0.100000 E2 0.111111 0.166667 -0.577350 1.000000 -0.184637 -0.184637 F1 -0.123091 0.430820 0.213201 -0.184637 1.000000 -1.07E-18 F2 0.288675 -0.57750 0.100000 -1.07E-18 0.426401 1.000000
由表4可以看出,解释变量之间不存在严重的多重共线性,各解释变量之间的干扰程度不大,不需要进行修正。 (b)异方差检验 a White 检验
表5 White 检验 Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 12/15/03 Time: 21:54 Sample: 1986 2000 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. C 14.63007 15.55903 0.940295 0.3746 S 2.538157 11.37371 0.223160 0.8290 A -6.248568 13.95230 -0.447852 0.6661 E1 -0.105573 13.46799 -0.007839 0.9939 E2 -5.147135 10.27685 -0.500847 0.6300 F1 2.974629 12.17643 0.244294 0.8132 F2 -2.860708 10.98235 -0.260482 0.8011 R-squared 0.125144 Mean dependent var 11.39916 Adjusted R-squared -0.530998 S.D. dependent var 12.75592 S.E. of regression 15.78335 Akaike info criterion 8.660512 Sum squared resid 1992.912 Schwarz criterion 8.990936 Log likelihood -57.95384 F-statistic 0.190727 Durbin-Watson stat 2.370596 Prob(F-statistic) 0.970773
计算n R2 = 15×0.125144 = 1.87716 在显著性水平a=0.01条件下,X2 0.01 (P>5) 都大于 1.87716 ,即可接受原假设,随机误差u 不存在异方差性。 (c)自相关检验 DW检验 由表1中估计的结果,DW=2.283073 ,在给定显著性水平a=0.01 ,查 Durbin-Watson表,n = 15 k = 6 得下限临界值dL = 0.447 dU = 2.472 dL < DW < dU 无法判断是否自相关 图示法 图1 由图1可以看出Et 呈线性自回归,表明随机误差项ut存在一阶自相关。
自相关的修正 广义差分法 B = 1-1/2DW=1-1.1515=-0.1415 表6 广义差分 Dependent Variable: Y Method: Least Squares Date: 12/16/03 Time: 14:40 Sample(adjusted): 1987 2000 Included observations: 14 after adjusting endpoints Convergence achieved after 6 iterations Variable Coefficient Std. Error t-Statistic Prob. S 21.09362 3.611608 5.840508 0.0006 A 17.71164 2.154693 8.220025 0.0001 E1 18.49486 1.778017 10.40196 0.0000 E2 5.164674 1.203522 4.291300 0.0036 F1 12.32894 1.329580 9.272804 0.0000 F2 5.480673 0.985115 5.563484 0.0008 AR(1) 0.857726 0.140809 6.091408 0.0005 R-squared 0.975461 Mean dependent var 38.35714 Adjusted R-squared 0.954428 S.D. dependent var 10.37458 S.E. of regression 2.214732 Akaike info criterion 4.734993 Sum squared resid 34.33528 Schwarz criterion 5.054522 Log likelihood -26.14495 Durbin-Watson stat 2.055093 Inverted AR Roots .86
DW=2.055039 仍落在了不能判断的{dL = 0.447 , dU = 2.472}内。 表7 Cochrane---Qrcutt迭代法 Dependent Variable: Y Method: Least Squares Date: 12/16/03 Time: 13:14 Sample(adjusted): 1987 2000 Included observations: 14 after adjusting endpoints Convergence achieved after 59 iterations Variable Coefficient Std. Error t-Statistic Prob. C 11.56912 1.862201 6.212606 0.0008 S 14.69725 1.440980 10.19948 0.0001 A 12.32374 1.614937 7.631096 0.0003 E1 16.24810 1.721711 9.437182 0.0001 E2 5.339722 1.406899 3.795384 0.0090 F1 12.54277 1.464528 8.564375 0.0001 F2 5.456586 1.544637 3.532600 0.0123 AR(1) -0.299458 0.470966 -0.635837 0.5484 R-squared 0.982395 Mean dependent var 39.00000 Adjusted R-squared 0.961856 S.D. dependent var 9.742847 S.E. of regression 1.902819 Akaike info criterion 4.420109 Sum squared resid 21.72432 Schwarz criterion 4.785285 Log likelihood -22.94076 F-statistic 47.83089 Durbin-Watson stat 2.414916 Prob(F-statistic) 0.000076 Inverted AR Roots -.30 DW=2.4149 有所提高但仍落在了不能判断的{dL = 0.447 , dU = 2.472}内。 尽管如此,由于此模型中各个解释变量对应变量的单独影响和联合影响都很显著 且模型没有多重共线性和异方差,与我们设想的一样,性别、学历、年龄和企业大小对工资收入有明显的影响,因此我们仍用此模型对工资作出预测: a)大型企业中40多岁男性大学毕业工人的月收入Y1 Y1= 11.966 + 14.385*1 + 12.643A*1+ 15.873*1 + 5.083*0 + 12.152*1 + 5.544*0 =67.190(万日元) b)中型企业中30多岁女性大学毕业工人的月收入Y2 Y2= 11.966 + 14.385*0 + 12.643A*0+ 15.873*0 + 5.083*1 + 12.152*0 + 5.544*1 =22.593(万日元) C)小型企业中30多岁男性初中毕业工人的月收入Y3 Y3= 11.966 + 14.385*1 + 12.643A*0+ 15.873*0 + 5.083*0 + 12.152*0 + 5.544*0 =26.351(万日元)