职场文秘网

首页 > 条据书信 > 道歉信 / 正文

《应用回归分析》课后题答案解析

2020-10-04 10:58:06

 《应用回归分析》部分课后习题答案

  第一章

 回归分析概述 1.1 变量间统计关系和函数关系的区别是什么? 答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。

  1.2 回归分析与相关分析的联系与区别是什么? 答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。b.相关分析中所涉及的变量y与变量x全是随机变量。而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。

  1.3 回归模型中随机误差项ε的意义是什么? 答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。

  1.4 线性回归模型的基本假设是什么? 答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。2.等方差及不相关的假定条件为{E(εi)=0 i=1,2….

 Cov(εi,εj)={σ^2 3.正态分布的假定条件为相互独立。4.样本容量的个数要多于解释变量的个数,即n>p.

 1.5 回归变量的设置理论根据是什么?在回归变量设置时应注意哪些问题? 答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。应注意的问题有:在选择变量时要注意与一些专门领域的专家合作,不要认为一个回归模型所涉及的变量越多越好,回归变量的确定工作并不能一次完成,需要反复试算,最终找出最合适的一些变量。

  1.6 收集,整理数据包括哪些内容? 答;常用的样本数据分为时间序列数据和横截面数据,因而数据收集的方法主要有按时间顺序统计数据和在同一时间截面上统计数据,在数据的收集中,样本容量的多少一般要与设置的解释变量数目相配套。而数据的整理不仅要把一些变量数据进行折算差分甚至把数据对数化,标准化等有时还需注意剔除个别特别大或特别小的“野值”。

  1.7 构造回归理论模型的基本依据是什么? 答:选择模型的数学形式的主要依据是经济行为理论,根据变量的样本数据作出解释变量与被解释变量之间关系的散点图,并将由散点图显示的变量间的函数关系作为理论模型的数学形式。对同一问题我们可以采用不同的形式进行计算机模拟,对不同的模拟结果,选择较好的一个作为理论模型。

  1.8 为什么要对回归模型进行检验? 答:我们建立回归模型的目的是为了应用它来研究经济问题,但如果马上就用这个模型去预测,控制,分析,显然是不够慎重的,所以我们必须通过检验才能确定这个模型是否真正揭示了被解释变量和解释变量之间的关系。

  1.9 回归模型有那几个方面的应用? 答:回归模型的应用方面主要有:经济变量的因素分析和进行经济预测。

  1.10 为什么强调运用回归分析研究经济问题要定性分析和定量分析相结合? 答:在回归模型的运用中,我们还强调定性分析和定量分析相结合。这是因为数理统计方法只是从事物外在的数量表面上去研究问题,不涉及事物质的规定性,单纯的表面上的数量关系是否反映事物的本质?这本质究竟如何?必须依靠专门的学科研究才能下定论,所以,在经济问题的研究中,我们不能仅凭样本数据估计的结果就不加分析地说长道短,必须把参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在经济问题研究中的正确应用。

 第二章

 一元线性回归

 2.14 解答:(1)散点图为:

 (2)x与y之间大致呈线性关系。

  (3)设回归方程为

  =

  (4)

 =

  (5)由于

 服从自由度为n-2的t分布。因而

 也即:= 可得 即为:(2.49,11.5)

  服从自由度为n-2的t分布。因而

 即 可得 (6)x与y的决定系数 (7) ANOVA x

 平方和 df 均方 F 显著性 组间 (组合) 9.000 2 4.500 9.000 .100 线性项 加权的 8.167 1 8.167 16.333 .056 偏差 .833 1 .833 1.667 .326 组内 1.000 2 .500

  总数 10.000 4

 由于,拒绝,说明回归方程显著,x与y有显著的线性关系。

 (8)

  其中

 接受原假设认为显著不为0,因变量y对自变量x的一元线性回归成立。

 (9)相关系数

 = 小于表中的相应值同时大于表中的相应值,x与y有显著的线性关系. (10)

 序号

  1 1 10 6 4 2 2 10 13 -3 3 3 20 20 0 4 4 20 27 -7 5 5 40 34 6 残差图为:

  从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。

 (11)当广告费=4.2万元时,销售收入 ,即(17.1,39.7) 2.15 解答:

 (1) 散点图为:

 (2)x与y之间大致呈线性关系。

 (3)设回归方程为

  =

  (4)

 =0.2305 0.4801 (5) 由于

 服从自由度为n-2的t分布。因而

 也即:= 可得

 即为:(0.0028,0.0044)

  服从自由度为n-2的t分布。因而

 即 可得 (6)x与y的决定系数 =0.908 (7)

 ANOVA x

 平方和 df 均方 F 显著性 组间 (组合) 1231497.500 7 175928.214 5.302 .168 线性项 加权的 1168713.036 1 1168713.036 35.222 .027 偏差 62784.464 6 10464.077 .315 .885 组内 66362.500 2 33181.250

  总数 1297860.000 9

 由于,拒绝,说明回归方程显著,x与y有显著的线性关系。

 (8)

 其中

 接受原假设认为显著不为0,因变量y对自变量x的一元线性回归成立。

 (9) 相关系数

 = 小于表中的相应值同时大于表中的相应值,x与y有显著的线性关系. (10) 序号

  1 825 3.5 3.0768 0.4232 2 215 1 0.8808 0.1192 3 1070 4 3.9588 0.0412 4 550 2 2.0868 -0.0868 5 480 1 1.8348 -0.8348 6 920 3 3.4188 -0.4188 7 1350 4.5 4.9688 -0.4668 8 325 1.5 1.2768 0.2232 9 670 3 2.5188 0.4812 10 1215 5 4.4808 0.5192

 从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。

 (11) (12), 即为(2.7,4.7) 近似置信区间为:,即(2.74,4.66) (13)可得置信水平为为,即为(3.33,4.07). 2.16 (1)散点图为:

  可以用直线回归描述y与x之间的关系. (2)回归方程为: (3)

  从图上可看出,检验误差项服从正态分布。

  第三章 多元线性回归

 3.11 解:(1)用SPSS算出y,x1,x2,x3相关系数矩阵:

  相关性

 y x1 x2 x3 Pearson 相关性 y 1.000 .556 .731 .724 x1 .556 1.000 .113 .398 x2 .731 .113 1.000 .547 x3 .724 .398 .547 1.000

  y . .048 .008 .009 x1 .048 . .378 .127 x2 .008 .378 . .051 x3 .009 .127 .051 . N y 10 10 10 10 x1 10 10 10 10 x2 10 10 10 10 x3 10 10 10 10 所以= 系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 相关性 共线性统计量 B 标准 误差 试用版 下限 上限 零阶 偏 部分 容差 VIF 1 (常量) -348.280 176.459

 -1.974 .096 -780.060 83.500

 x1 3.754 1.933 .385 1.942 .100 -.977 8.485 .556 .621 .350 .825 1.211 x2 7.101 2.880 .535 2.465 .049 .053 14.149 .731 .709 .444 .687 1.455 x3 12.447 10.569 .277 1.178 .284 -13.415 38.310 .724 .433 .212 .586 1.708 a. 因变量: y

 (2)

 所以三元线性回归方程为

  模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 更改统计量 R 方更改 F 更改 df1 df2 Sig. F 更改 1 .898a .806 .708 23.44188 .806 8.283 3 6 .015 a. 预测变量: (常量), x3, x1, x2。

 (3) 由于决定系数R方=0.708

 R=0.898较大所以认为拟合度较高 (4) Anovab 模型 平方和 df 均方 F Sig. 1 回归 13655.370 3 4551.790 8.283 .015a 残差 3297.130 6 549.522

  总计 16952.500 9

 a. 预测变量: (常量), x3, x1, x2。

 b. 因变量: y

 因为F=8.283

  P=0.015<0.05所以认为回归方程在整体上拟合的好 (5) 系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 相关性 共线性统计量 B 标准 误差 试用版 下限 上限 零阶 偏 部分 容差 VIF 1 (常量) -348.280 176.459

 -1.974 .096 -780.060 83.500

 x1 3.754 1.933 .385 1.942 .100 -.977 8.485 .556 .621 .350 .825 1.211 x2 7.101 2.880 .535 2.465 .049 .053 14.149 .731 .709 .444 .687 1.455 x3 12.447 10.569 .277 1.178 .284 -13.415 38.310 .724 .433 .212 .586 1.708 a. 因变量: y (6)可以看到P值最大的是x3为0.284,所以x3的回归系数没有通过显著检验,应去除。

 去除x3后作F检验,得:

 Anovab 模型 平方和 df 均方 F Sig. 1 回归 12893.199 2 6446.600 11.117 .007a 残差 4059.301 7 579.900

  总计 16952.500 9

 a. 预测变量: (常量), x2, x1。

 b. 因变量: y 由表知通过F检验 继续做回归系数检验

 系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 相关性 共线性统计量 B 标准 误差 试用版 下限 上限 零阶 偏 部分 容差 VIF 1 (常量) -459.624 153.058

 -3.003 .020 -821.547 -97.700

 x1 4.676 1.816 .479 2.575 .037 .381 8.970 .556 .697 .476 .987 1.013 x2 8.971 2.468 .676 3.634 .008 3.134 14.808 .731 .808 .672 .987 1.013 a. 因变量: y 此时,我们发现x1,x2的显著性大大提高。

 (7)x1:(-0.997,8.485)

 x2:(0.053,14.149)

  x3:(-13.415,38.310) (8) (9)

 残差统计量a

 极小值 极大值 均值 标准 偏差 N 预测值 175.4748 292.5545 231.5000 38.95206 10 标准 预测值 -1.438 1.567 .000 1.000 10 预测值的标准误差 10.466 20.191 14.526 3.127 10 调整的预测值 188.3515 318.1067 240.1835 49.83914 10 残差 -25.19759 33.22549 .00000 19.14022 10 标准 残差 -1.075 1.417 .000 .816 10 Student 化 残差 -2.116 1.754 -.123 1.188 10 已删除的残差 -97.61523 50.88274 -8.68348 43.43220 10 Student 化 已删除的残差 -3.832 2.294 -.255 1.658 10 Mahal。

 距离 .894 5.777 2.700 1.555 10 Cook 的距离 .000 3.216 .486 .976 10 居中杠杆值 .099 .642 .300 .173 10 a. 因变量: y 所以置信区间为(175.4748,292.5545) (10)由于x3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好

 3.12 解:在固定第二产业增加值,考虑第三产业增加值影响的情况下,第一产业每增加一个单位,GDP就增加0.607个单位。

  在固定第一产业增加值,考虑第三产业增加值影响的情况下,第二产业每增加一个单位,GDP就增加1.709个单位。

  第四章 违背基本假设的情况

 4.8

 加权变化残差图上点的散步较之前的残差图,没有明显的趋势,点的散步较随机,因此加权最小二乘估计的效果较最小二乘估计好。

  4.9 解:

 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -.831 .442

 -1.882 .065 x .004 .000 .839 11.030 .000 a. 因变量: y 由SPSS计算得:=-0.831+0.004x 残差散点图为:

  (2)由残差散点图可知存在异方差性 再用等级相关系数分析:

 相关系数

 x t Spearman 的 rho X 相关系数 1.000 .318* Sig.(双侧) . .021 N 53 53 T 相关系数 .318* 1.000 Sig.(双侧) .021 . N 53 53 *. 在置信度(双测)为 0.05 时,相关性是显著的。

 P=0.021 所以方差与自变量的相关性是显著的。

 (3) 模型描述 因变量 y 自变量 1 x 权重 源 x 幂值 1.500 模型: MOD_1. M=1.5时可以建立最优权函数,此时得到:

  ANOVA

 平方和 df 均方 F Sig. 回归 .006 1 .006 98.604 .000 残差 .003 51 .000

  总计 .009 52

  系数

 未标准化系数 标准化系数 t Sig. B 标准误 试用版 标准误 (常数) -.683 .298

  -2.296 .026 x .004 .000 .812 .082 9.930 .000 所以:-0.683+0.004x (4) 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) .582 .130

 4.481 .000 x .001 .000 .805 9.699 .000 a. 因变量: yy

  4.10

 经济变量的滞后性会给序列带来自相关性。如前期消费额对后期消费额一般会有明显的影响,有时,经济变量的这种滞后性表现出一种不规则的循环运动,当经济情况处于衰退的低谷时,经济扩张期随之开始,这时,大多数经济时间序列上升的快一些。在经济扩张时期,经济时间数列内部有一种内在的动力,受此影响,时间序列一直上升到循环的顶点,在顶点时刻,经济收缩随之开始。因此,在这样的时间序列数据中,顺序观察值之间的相关现象是恨自然的。

  4.11

 当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假设,如果仍然直接用普通最小二乘估计未知参数,将会产生严重后果,一般情况下序列相关性会带来下列问题:

 (1)参数的估计值不再具有最小方差线性无偏性。

 (2)均方误差MSE可能严重低估误差项的方差。

 (3)容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论。

 (4)当存在序列相关时,最小二乘估计量对抽样波动变得非常敏感。

 (5)如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和进行结构分析将会带来较大的方差甚至错误的解释。

  4.12

 优点:DW检验有着广泛的应用,对很多模型能简单方便的判断该模型有无序列相关性,当DW的值在2左右时,则无需查表,即可放心的认为模型不存在序列的自相关性。

 缺点:DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断,这时,只有增大样本容量或选取其他方法;DW统计量的上、下界表要求n>15,这是因为如果样本再小,利用残差就很难对自相关的存在性作出比较正确的判断;DW检验不适合随机项具有高阶序列相关的检验。

  4.13 解:

 (1) 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -1.435 .242

 -5.930 .000 x .176 .002 .999 107.928 .000 a. 因变量: y =-1.435+0.176x (2)

 模型汇总b 模型 R R 方 调整 R 方 标准 估计的误差 Durbin-Watson 1 .999a .998 .998 .09744 .663 a. 预测变量: (常量), x。

 b. 因变量: y DW=0.663

 查DW分布表知:=0.95 所以DW<,故误差项存在正相关。

 残差图为:

  随t的变化逐次变化并不频繁的改变符号,说明误差项存在正相关。

 (3)=1-0.5*DW=0.6685 计算得:

  Y’

 x’ 7.39 44.90 7.65 45.80 6.84 40.69 8.00 48.50 7.79 46.85 8.26 49.45 7.96 48.47 8.28 50.04 7.90 48.03

 Y’

 X’ 8.49 51.17 7.88 47.26 8.77 52.33 8.93 52.69 9.32 54.95 9.29 55.54 9.48 56.77 9.38 55.83 9.67 58.00 9.90 59.22

 模型汇总b 模型 R R 方 调整 R 方 标准 估计的误差 Durbin-Watson 1 .996a .993 .993 .07395 1.344 a. 预测变量: (常量), xx。

 b. 因变量: yy

 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -.303 .180

 -1.684 .110 xx .173 .004 .996 49.011 .000 a. 因变量: yy 得回归方程 =-0.303+0.173x’ 即:=-0.303+0.6685+0.173(—0.6685) (4) 模型汇总b 模型 R R 方 调整 R 方 标准 估计的误差 Durbin-Watson 1 .978a .957 .955 .07449 1.480 a. 预测变量: (常量), x3。

 b. 因变量: y3

 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) .033 .026

 1.273 .220 x3 .161 .008 .978 19.528 .000 a. 因变量: y3 △=0.033+0.161△ 即:=0.033++0.161(-) (5)差分法的DW值最大为1.48消除相关性最彻底,但是迭代法的值最小为0.07395,拟合的较好。

  4.14解:(1) 模型汇总b 模型 R R 方 调整 R 方 标准 估计的误差 Durbin-Watson 1 .541a .293 .264 329.69302 .745 a. 预测变量: (常量), x2, x1。

 b. 因变量: y

  系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -574.062 349.271

 -1.644 .107 x1 191.098 73.309 .345 2.607 .012 x2 2.045 .911 .297 2.246 .029 a. 因变量: y 回归方程为:=-574.062+191.098x1+2.045x2 DW=0.745<Dl 所以误差项存在正相关 残差图为:

  (2)=1-0.5*DW=0.6275 模型汇总b 模型 R R 方 调整 R 方 标准 估计的误差 Durbin-Watson 1 .688a .474 .452 257.67064 1.716 a. 预测变量: (常量), x22, x12。

 b. 因变量: y2

 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -179.668 90.337

 -1.989 .052 x12 211.770 47.778 .522 4.432 .000 x22 1.434 .628 .269 2.283 .027 a. 因变量: y2 此时得方程:’=-179.668+211.77x1’+1.434x2’ 所以回归方程为:

 (3) 模型汇总b 模型 R R 方 调整 R 方 标准 估计的误差 Durbin-Watson 1 .715a .511 .490 283.79102 2.042 a. 预测变量: (常量), x23, x13。

 b. 因变量: y3

 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) 7.698 39.754

 .194 .847 x13 209.891 44.143 .544 4.755 .000 x23 1.399 .583 .274 2.400 .020 a. 因变量: y3 此时得方程:△ 所以回归方程为:

  4.15

  异常值原因

 异常值消除方法

 1)数据登记误差,存在抄写或录入的错误

  重新核实数据

  2)数据测量误差

  重新测量误差

  3)数据随机误差

  删除或重新观测异常值数据

  4)缺少重要自变量

  增加必要的自变量

  5)缺少观测数据

  增加观测数据,适当扩大自变

  量取值范围

  6)存在异方差

  采用加权线性回归

  7)模型选用错误,线性模型不适用

  改用非线性回归模型 4.16

 编号 学生化残差

 删除学生化残差

 杠杆值

  库克距离 1

  -0.89353

  -0.87604

 0.35418

  0.16609

 2

  0.62767

  0.59277

 0.14025

  0.03115 3

  0.26517

  0.24349

 0.16079

  0.00620 4

 -0.00433

 -0.00396

 0.09935

  0.00000 5

  1.75400

  2.29383

 0.24702

  0.40874 6

 -2.11566

 -3.83214

 0.64187

  3.21601 7

 -1.17348

 -1.22039

 0.49277

  0.50110 8

 -1.16281

 -1.20606

 0.36129

  0.28946 9

  0.40935

  0.37902

 0.16366

  0.01500 10

 1.06462

  1.07911

 0.33883

  0.22158

  从上表中看到,绝对值最大的学生化残差为2.11566,小于3,因而根据学生化残差诊断认为数据不存在异常值。绝对值最大的删除学生化残差为3.83214,大于3,因而根据学生化残差诊断为第6个数据为异常值,是因变量的异常值。其中心化杠杆值等于0.64187 最大,库克距离等于3.21601也是最大,中心化杠杆平均值为0.3001,第6个数据杠杆值等于0.64187大于2倍的中心化杠杆值,因而从杠杆值看第6个数据是自变量的异常值,同时第6个数据的库克距离等于3.21601,大于1,这样第6个数据为异常值的原因是由自变量异常与因变量异常两个原因共同引起的。

  第五章 自变量选择与逐步回归 5.9 后退法:输出结果 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) 1438.120 2252.472

 .638 .533 农业x1 -.626 .168 -1.098 -3.720 .002 工业x2 -.328 .207 -1.352 -1.587 .135 建筑业x3 -.383 .555 -.251 -.691 .501 人口x4 -.004 .025 -.014 -.161 .875 最终消费x5 .672 .130 3.710 5.178 .000 受灾面积x6 -.006 .008 -.015 -.695 .499 2 (常量) 1079.754 299.759

 3.602 .003 农业x1 -.642 .130 -1.126 -4.925 .000 工业x2 -.303 .131 -1.249 -2.314 .035 建筑业x3 -.402 .525 -.263 -.765 .456 最终消费x5 .658 .095 3.636 6.905 .000 受灾面积x6 -.006 .007 -.017 -.849 .409 3 (常量) 1083.150 295.816

 3.662 .002 农业x1 -.624 .127 -1.095 -4.931 .000 工业x2 -.373 .093 -1.535 -3.998 .001 最终消费x5 .657 .094 3.627 6.981 .000 受灾面积x6 -.005 .007 -.015 -.758 .460 4 (常量) 874.604 106.869

 8.184 .000 农业x1 -.611 .124 -1.073 -4.936 .000 工业x2 -.353 .088 -1.454 -3.994 .001 最终消费x5 .637 .089 3.516 7.142 .000 a. 因变量: 财政收入y

 Anovae 模型 平方和 df 均方 F Sig. 1 回归 1.365E8 6 2.274E7 602.127 .000a 残差 528793.319 14 37770.951

  总计 1.370E8 20

 2 回归 1.365E8 5 2.729E7 772.734 .000b 残差 529767.852 15 35317.857

  总计 1.370E8 20

 3 回归 1.364E8 4 3.411E7 991.468 .000c 残差 550440.103 16 34402.506

  总计 1.370E8 20

 4 回归 1.364E8 3 4.547E7 1355.753 .000d 残差 570180.931 17 33540.055

  总计 1.370E8 20

 a. 预测变量: (常量), 受灾面积x6, 建筑业x3, 人口x4, 农业x1, 最终消费x5, 工业x2。

 b. 预测变量: (常量), 受灾面积x6, 建筑业x3, 农业x1, 最终消费x5, 工业x2。

 c. 预测变量: (常量), 受灾面积x6, 农业x1, 最终消费x5, 工业x2。

 d. 预测变量: (常量), 农业x1, 最终消费x5, 工业x2。

 e. 因变量: 财政收入y

 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 更改统计量 R 方更改 F 更改 df1 df2 Sig. F 更改 1 .998a .996 .994 194.34750 .996 602.127 6 14 .000 2 .998b .996 .995 187.93046 .000 .026 1 14 .875 3 .998c .996 .995 185.47913 .000 .585 1 15 .456 4 .998d .996 .995 183.13944 .000 .574 1 16 .460 a. 预测变量: (常量), 受灾面积x6, 建筑业x3, 人口x4, 农业x1, 最终消费x5, 工业x2。

 b. 预测变量: (常量), 受灾面积x6, 建筑业x3, 农业x1, 最终消费x5, 工业x2。

 c. 预测变量: (常量), 受灾面积x6, 农业x1, 最终消费x5, 工业x2。

 d. 预测变量: (常量), 农业x1, 最终消费x5, 工业x2。

 回归方程为:

  逐步回归法:输出结果 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 更改统计量 R 方更改 F 更改 df1 df2 Sig. F 更改 1 .994a .989 .988 285.68373 .989 1659.441 1 19 .000 2 .996b .992 .991 247.77768 .003 7.258 1 18 .015 3 .998c .996 .995 183.13944 .004 15.948 1 17 .001 a. 预测变量: (常量), 最终消费x5。

 b. 预测变量: (常量), 最终消费x5, 农业x1。

 c. 预测变量: (常量), 最终消费x5, 农业x1, 工业x2。

  Anovad 模型 平方和 df 均方 F Sig. 1 回归 1.354E8 1 1.354E8 1659.441 .000a 残差 1550688.654 19 81615.192

  总计 1.370E8 20

 2 回归 1.359E8 2 6.794E7 1106.637 .000b 残差 1105088.003 18 61393.778

  总计 1.370E8 20

 3 回归 1.364E8 3 4.547E7 1355.753 .000c 残差 570180.931 17 33540.055

  总计 1.370E8 20

 a. 预测变量: (常量), 最终消费x5。

 b. 预测变量: (常量), 最终消费x5, 农业x1。

 c. 预测变量: (常量), 最终消费x5, 农业x1, 工业x2。

 d. 因变量: 财政收入y

 系数a 模型 非标准化系数 标准系数 t Sig. 相关性 B 标准 误差 试用版 零阶 偏 部分 1 (常量) 710.372 90.891

 7.816 .000

 最终消费x5 .180 .004 .994 40.736 .000 .994 .994 .994 2 (常量) 1011.912 136.901

 7.392 .000

 最终消费x5 .311 .049 1.718 6.374 .000 .994 .832 .135 农业x1 -.414 .154 -.726 -2.694 .015 .987 -.536 -.057 3 (常量) 874.604 106.869

 8.184 .000

 最终消费x5 .637 .089 3.516 7.142 .000 .994 .866 .112 农业x1 -.611 .124 -1.073 -4.936 .000 .987 -.767 -.077 工业x2 -.353 .088 -1.454 -3.994 .001 .992 -.696 -.062 a. 因变量: 财政收入y 回归方程为: 5.10 (1) 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 1 .908a .824 .736 625.88326 2 .000b .000 .000 1217.15945 a. 预测变量: (常量), x6, x3, x2, x4, x5。

 b. 预测变量: (常量)

 Anovac 模型 平方和 df 均方 F Sig. 1 回归 1.830E7 5 3660971.683 9.346 .002a 残差 3917298.522 10 391729.852

  总计 2.222E7 15

 2 回归 .000 0 .000 . .b 残差 2.222E7 15 1481477.129

  总计 2.222E7 15

 a. 预测变量: (常量), x6, x3, x2, x4, x5。

 b. 预测变量: (常量) c. 因变量: y

 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) 5922.827 2504.315

 2.365 .040 x2 4.864 2.507 .677 1.940 .081 x3 2.374 .842 .782 2.818 .018 x4 -817.901 187.279 -1.156 -4.367 .001 x5 14.539 147.078 .050 .099 .923 x6 -846.867 291.634 -.899 -2.904 .016 2 (常量) 7542.938 304.290

 24.789 .000 a. 因变量: y 回归方程为:

 (2)后退法:输出结果

 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 1 .908a .824 .736 625.88326 2 .907b .824 .759 597.04776 a. 预测变量: (常量), x6, x3, x2, x4, x5。

 b. 预测变量: (常量), x6, x3, x2, x4。

  Anovac 模型 平方和 df 均方 F Sig. 1 回归 1.830E7 5 3660971.683 9.346 .002a 残差 3917298.522 10 391729.852

  总计 2.222E7 15

 2 回归 1.830E7 4 4575257.669 12.835 .000b 残差 3921126.262 11 356466.024

  总计 2.222E7 15

 a. 预测变量: (常量), x6, x3, x2, x4, x5。

 b. 预测变量: (常量), x6, x3, x2, x4。

 c. 因变量: y

 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) 5922.827 2504.315

 2.365 .040 x2 4.864 2.507 .677 1.940 .081 x3 2.374 .842 .782 2.818 .018 x4 -817.901 187.279 -1.156 -4.367 .001 x5 14.539 147.078 .050 .099 .923 x6 -846.867 291.634 -.899 -2.904 .016 2 (常量) 6007.320 2245.481

 2.675 .022 x2 5.068 1.360 .706 3.727 .003 x3 2.308 .486 .760 4.750 .001 x4 -824.261 167.776 -1.165 -4.913 .000 x6 -862.699 232.489 -.916 -3.711 .003 a. 因变量: y

 (3)逐步回归

 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 1 .498a .248 .194 1092.83206 2 .697b .485 .406 937.95038 3 .811c .657 .572 796.60909 a. 预测变量: (常量), x3。

 b. 预测变量: (常量), x3, x5。

 c. 预测变量: (常量), x3, x5, x4。

  Anovad 模型 平方和 df 均方 F Sig. 1 回归 5502210.090 1 5502210.090 4.607 .050a 残差 1.672E7 14 1194281.918

  总计 2.222E7 15

 2 回归 1.079E7 2 5392697.554 6.130 .013b 残差 1.144E7 13 879750.910

  总计 2.222E7 15

 3 回归 1.461E7 3 4869041.506 7.673 .004c 残差 7615032.418 12 634586.035

  总计 2.222E7 15

 a. 预测变量: (常量), x3。

 b. 预测变量: (常量), x3, x5。

 c. 预测变量: (常量), x3, x5, x4。

 d. 因变量: y

 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) 5161.259 1142.744

 4.517 .000 x3 1.511 .704 .498 2.146 .050 2 (常量) 472.298 2150.138

 .220 .830 x3 3.188 .913 1.050 3.492 .004 x5 212.325 86.643 .737 2.451 .029 3 (常量) 1412.807 1865.912

 .757 .464 x3 3.440 .782 1.133 4.398 .001 x5 348.729 92.220 1.210 3.782 .003 x4 -415.136 169.163 -.587 -2.454 .030 a. 因变量: y

 (4)两种方法得到的模型是不同的,回退法剔除了x5,保留了x6, x3, x2, x4作为最终模型。而逐步回归法只引入了x3。说明了方法对自变量重要性的认可不同的,这与自变量的相关性有关联。相比之下,后退法首先做全模型的回归,每一个变量都有机会展示自己的作用,所得结果更有说服力

 第六章 多重共线性的情形及其处理

 6.6 解:由下表我们可以看出

 系数a 模型 非标准化系数 标准系数 t Sig. 共线性统计量 B 标准 误差 试用版 容差 VIF 1 (常量) -6381.575 2736.958

 -2.332 .035

  x1 -.593 .279 -1.040 -2.127 .052 .003 318.536 x2 .549 .199 2.260 2.753 .016 .001 897.470 x3 -.756 .911 -.495 -.830 .420 .002 472.951 x4 .080 .031 .281 2.590 .021 .064 15.706 x5 .006 .006 .038 .918 .374 .434 2.305 x6 -.010 .014 -.027 -.750 .466 .574 1.742 a. 因变量: y 方差扩大因子最大的为VIF2=897.470,故首先应剔除变量x2.将剩下变量继续进行回归得下表:

 系数a 模型 非标准化系数 标准系数 t Sig. 共线性统计量 B 标准 误差 试用版 容差 VIF 1 (常量) -2677.422 2858.846

 -.937 .364

  x1 -.053 .237 -.092 -.221 .828 .006 160.620 x3 1.433 .533 .937 2.690 .017 .009 112.478 x4 .036 .032 .127 1.137 .274 .087 11.509 x5 .006 .008 .041 .822 .424 .434 2.303 x6 .002 .015 .006 .157 .878 .647 1.545 a. 因变量: y 此时,有最大的方差扩大因子VIF1=160.620,且此时x1系数为负,故x1也应被剔除,继续将剩下变量进行回归得:

 系数a 模型 非标准化系数 标准系数 t Sig. 共线性统计量 B 标准 误差 试用版 容差 VIF 1 (常量) -2214.129 1888.503

 -1.172 .258

  x3 1.318 .109 .862 12.068 .000 .199 5.023 x4 .031 .019 .107 1.586 .132 .221 4.523 x5 .006 .007 .041 .841 .412 .434 2.302 x6 .003 .015 .008 .209 .837 .671 1.489 a. 因变量: y 此时,所有方差扩大因子都小于10,故回归方程如下:

 =-2214.129+1.318x3+0.031x4+0.006x5+0.003x6

  第七章 岭回归

 1. 岭回归估计是在什么情况下提出的? 答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。

  2. 岭回归估计的定义及其统计思想是什么? 答:一种改进最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,∣X'X∣≈0时,我们设想给X'X加上一个正常数矩阵kI(k>0),那么X'X+kI 接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方便,标准化后的设计阵仍然用X表示,定义为 ,称为的岭回归估计,其中k称为岭参数。

  3. 选择岭参数k有哪几种主要方法? 答:选择岭参数的几种常用方法有1.岭迹法,2.方差扩大因子法,3.由残差平方和来确定k值。

  4. 用岭回归方法选择自变量应遵从哪些基本原则? 答:用岭回归方法来选择变量应遵从的原则有:

 1. 在岭回归的计算中,我们假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。

 2. 当k值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零。像这样的岭回归系数不稳定,震动趋于零的自变量,我们也可以予以删除。

 3. 去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。

  5. 对第5章习题9的数据,逐步回归的结果只保留了3个自变量x1,x2,x5,用y对这3个自变量做岭回归分析? 答:

  6. 对习题3.12的 问题,分别用普通最小二乘和岭回归建立GDP对第二产业增加值x2,和第三产业增加值x3的二元线性回归,解释所得到的回归系数? 答:

 R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K

 K

 RSQ

  x2

 x3 ______

 ______

 ________

 ________

 .00000

 .99923

  .774524

  .225943 .05000

 .99803

  .512296

  .463711 .10000

 .99629

  .489067

  .463649 .15000

 .99367

  .473860

  .456649 .20000

 .99025

  .461162

  .448152 .25000

 .98615

  .449761

  .439303 .30000

 .98147

  .439219

  .430476 .35000

 .97628

  .429332

  .421821 .40000

 .97067

  .419984

  .413400 .45000

 .96470

  .411101

  .405242 .50000

 .95842

  .402632

  .397352 .55000

 .95189

  .394536

  .389732 .60000

 .94514

  .386782

  .382376 .65000

 .93822

  .379344

  .375274 .70000

 .93116

  .372200

  .368419 .75000

 .92398

  .365330

  .361799 .80000

 .91672

  .358717

  .355405 .85000

 .90939

  .352345

  .349227 .90000

 .90202

  .346201

  .343255 .95000

 .89462

  .340271

  .337480 1.0000

 .88720

  .334545

  .331892

  系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) 4352.859 679.065

 6.410 .000 第二产业增加值 1.438 .151 .775 9.544 .000 第三产业增加值 .679 .244 .226 2.784 .017 a. 因变量: GDP

  R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K

 K

 RSQ

  x2

 x3 ______

 ______

 ________

 ________

 .00000

 .99923

  .774524

  .225943 .01000

 .99888

  .587428

  .408049 .02000

 .99866

  .548878

  .441659 .03000

 .99847

  .531054

  .454593 .04000

 .99827

  .520110

  .460694 .05000

 .99803

  .512296

  .463711 .06000

 .99776

  .506176

  .465082 .07000

 .99745

  .501080

  .465475 .08000

 .99710

  .496653

  .465244 .09000

 .99672

  .492691

  .464593 .10000

 .99629

  .489067

  .463649

 Run MATRIX procedure:

 ****** Ridge Regression with k = 0.01 ******

 Mult R

  .999439 RSquare

 .998878 Adj RSqu

  .998691 SE

  1301.292455

  ANOVA table

  df

 SS

 MS Regress

 2.000 1.81E+010 9.04E+009 Residual

 12.000

 20320345 1693362.1

  F value

  Sig F

 5341.336020

  .000000

 --------------Variables in the Equation----------------

 B

  SE(B)

 Beta

  B/SE(B) x2

 1.090606

  .060219

  .587428

  18.110661 x3

 1.226660

  .097506

  .408049

  12.580325 Constant

  3980.247846

 738.314258

  .000000

 5.390994

  ------ END MATRIX -----

 结合表及图形可知,用普通最小二乘法得到的回归方程为 .显然回归系数=0.679明显不合理。

 从岭参数图来看,岭参数k在0.0到0.1之间,岭参数已基本稳定,再参照复决定系数,当k=0.01时,复决定系数=0.998691,仍然很大,固用k=0.01做回归得到的未标准化的岭回归方程为。

 7. 一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法,表7.5是该银行所属25家分行2002年的有关业务数据。

 (1) 计算y与其余四个变量的简单相关系数。

 (2) 建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理? (3) 分析回归模型的共线性。

 (4) 采用后退法和逐步回归法选择变量,所得回归方程的回归系数是否合理,是否还存在共线性? (5) 建立不良贷款y对4个自变量的岭回归。

 (6) 对第4步剔除变量后的回归方程再做岭回归。

 (7) 某研究人员希望做y对各项贷款余额,本年累计应收贷款.贷款项目个数这三个变量的回归,你认为这种做是否可行,如果可行应该如何做?

 相关性

  不良贷款y 各项贷款余额x1 本年累计应收到款x2 贷款项目个数x3 本年固定资产投资额x4

 Pearson 相关性 不良贷款y 1.000 .844 .732 .700 .519

 各项贷款余额x1 .844 1.000 .679 .848 .780

 本年累计应收到款x2 .732 .679 1.000 .586 .472

 贷款项目个数x3 .700 .848 .586 1.000 .747

 本年固定资产投资额x4 .519 .780 .472 .747 1.000

 Sig. (单侧) 不良贷款y . .000 .000 .000 .004

 各项贷款余额x1 .000 . .000 .000 .000

 本年累计应收到款x2 .000 .000 . .001 .009

 贷款项目个数x3 .000 .000 .001 . .000

 本年固定资产投资额x4 .004 .000 .009 .000 .

 N 不良贷款y 25 25 25 25 25

 各项贷款余额x1 25 25 25 25 25

 本年累计应收到款x2 25 25 25 25 25

 贷款项目个数x3 25 25 25 25 25

 本年固定资产投资额x4 25 25 25 25 25

  系数a 模型 非标准化系数 标准系数 t Sig. 共线性统计量 B 标准 误差 试用版 容差 VIF 1 (常量) -1.022 .782

 -1.306 .206

  各项贷款余额x1 .040 .010 .891 3.837 .001 .188 5.331 本年累计应收到款x2 .148 .079 .260 1.879 .075 .529 1.890 贷款项目个数x3 .015 .083 .034 .175 .863 .261 3.835 本年固定资产投资额x4 -.029 .015 -.325 -1.937 .067 .360 2.781 a. 因变量: 不良贷款y

  共线性诊断a

 模型 维数 特征值 条件索引 方差比例

 (常量) 各项贷款余额x1 本年累计应收到款x2 贷款项目个数x3 本年固定资产投资额x4

 1 1 4.538 1.000 .01 .00 .01 .00 .00

 2 .203 4.733 .68 .03 .02 .01 .09

 3 .157 5.378 .16 .00 .66 .01 .13

 4 .066 8.287 .00 .09 .20 .36 .72

 5 .036 11.215 .15 .87 .12 .63 .05

 a. 因变量: 不良贷款y

  后退法得 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -1.022 .782

 -1.306 .206 各项贷款余额x1 .040 .010 .891 3.837 .001 本年累计应收到款x2 .148 .079 .260 1.879 .075 贷款项目个数x3 .015 .083 .034 .175 .863 本年固定资产投资额x4 -.029 .015 -.325 -1.937 .067 2 (常量) -.972 .711

 -1.366 .186 各项贷款余额x1 .041 .009 .914 4.814 .000 本年累计应收到款x2 .149 .077 .261 1.938 .066 本年固定资产投资额x4 -.029 .014 -.317 -2.006 .058 3 (常量) -.443 .697

 -.636 .531 各项贷款余额x1 .050 .007 1.120 6.732 .000 本年固定资产投资额x4 -.032 .015 -.355 -2.133 .044 a. 因变量: 不良贷款y

 逐步回归得 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -.830 .723

 -1.147 .263 各项贷款余额x1 .038 .005 .844 7.534 .000 2 (常量) -.443 .697

 -.636 .531 各项贷款余额x1 .050 .007 1.120 6.732 .000 本年固定资产投资额x4 -.032 .015 -.355 -2.133 .044 a. 因变量: 不良贷款y

  R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K

 K

 RSQ

  x1

 x2

 x3

 x4 ______

 ______

 ________

 ________

 ________

 ________

 .00000

 .79760

  .891313

  .259817

  .034471

 -.324924 .05000

 .79088

  .713636

  .286611

  .096624

 -.233765 .10000

 .78005

  .609886

  .295901

  .126776

 -.174056 .15000

 .76940

  .541193

  .297596

  .143378

 -.131389 .20000

 .75958

  .491935

  .295607

  .153193

 -.099233 .25000

 .75062

  .454603

  .291740

  .159210

 -.074110 .30000

 .74237

  .425131

  .286912

  .162925

 -.053962 .35000

 .73472

  .401123

  .281619

  .165160

 -.037482 .40000

 .72755

  .381077

  .276141

  .166401

 -.023792 .45000

 .72077

  .364000

  .270641

  .166949

 -.012279 .50000

 .71433

  .349209

  .265211

  .167001

 -.002497 .55000

 .70816

  .336222

  .259906

  .166692

  .005882 .60000

 .70223

  .324683

  .254757

  .166113

  .013112 .65000

 .69649

  .314330

  .249777

  .165331

  .019387 .70000

 .69093

  .304959

  .244973

  .164397

  .024860 .75000

 .68552

  .296414

  .240345

  .163346

  .029654 .80000

 .68024

  .288571

  .235891

  .162207

  .033870 .85000

 .67508

  .281331

  .231605

  .161000

  .037587 .90000

 .67003

  .274614

  .227480

  .159743

  .040874 .95000

 .66508

  .268353

  .223510

  .158448

  .043787 1.0000

 .66022

  .262494

  .219687

  .157127

  .046373

  Run MATRIX procedure:

 ****** Ridge Regression with k = 0.4 ******

  Mult R

 .802353780 RSquare

  .643771588 Adj RSqu

 .611387187 SE

  2.249999551

  ANOVA table

  df

 SS

 MS Regress

 2.000

  201.275

  100.638 Residual

 22.000

  111.375

  5.062

 F value

  Sig F

 19.87906417

  .00001172

 --------------Variables in the Equation----------------

 B

  SE(B)

 Beta

  B/SE(B) x1

 .025805860

 .003933689

 .574462395

  6.560218798 x4

 .004531316

 .007867533

 .050434658

 .575951348 Constant

 .357087614

 .741566536

 .000000000

 .481531456

  ------ END MATRIX ----- Y对x1 x2 x3 做岭回归

 Run MATRIX procedure:

 ****** Ridge Regression with k = 0.4 ******

  Mult R

 .850373821 RSquare

  .723135635 Adj RSqu

 .683583583 SE

  2.030268037

  ANOVA table

  df

 SS

 MS Regress

 3.000

  226.089

 75.363 Residual

 21.000

 86.562

  4.122

 F value

  Sig F

 18.28313822

  .00000456

 --------------Variables in the Equation----------------

 B

  SE(B)

 Beta

  B/SE(B) x1

 .016739073

 .003359156

 .372627316

  4.983118685 x2

 .156806656

 .047550034

 .275213878

  3.297719120 x3

 .067110931

 .032703990

 .159221005

  2.052071673 Constant

  -.819486727

 .754456246

 .000000000

 -1.086195166

  ------ END MATRIX -----

  由图及表可知,(1)y 与x1 x2 x3 x4 的相关系数分别为0.844,0.732,0.700,0.519. (2) y对其余四个变量的线性回归方程为

  由于的系数为负,说明存在共线性,固所得的回归系数是不合理的。

 (3) 由于条件数=11.25>10,说明存在较强的共线性。

 (4) 由上表可知由后退法和逐步回归法所得到的线性回归方程为 由于的系数为负,说明仍然存在共线性。

 (5) Y对其余四个自变量的岭回归如上表所示。

 (6) 选取岭参数k=0.4,得岭回归方程,回归系数都能有合理的解释。

 (7) 用y对x1 x2 x3 做岭回归,选取岭参数k=0.4,岭回归方程为回归系数都能有合理的解释,由 B / SE(B) 得近似的t值可知,x1 x2 x3 都是显著的,所以y对x1 x2 x3的岭回归是可行的。

  您好,欢迎您阅读我的文章,本WORD文档可编辑修改,也可以直接打印。阅读过后,希望您提出保贵的意见或建议。阅读和学习是一种非常好的习惯,坚持下去,让我们共同进步。

 您好,欢迎您阅读我的文章,本WORD文档可编辑修改,也可以直接打印。阅读过后,希望您提出保贵的意见或建议。阅读和学习是一种非常好的习惯,坚持下去,让我们共同进步。

 

Tags: 课后   解析   回归  

搜索
网站分类
标签列表