Статистическое моделирование 2
СОДЕРЖАНИЕ: Задача 1 Район Потребительские расходы на душу населения, тыс.руб., y Денежные доходы на душу населения, тыс.руб.,x Республика Башкортостан Удмуртская РеспубликаЗадача 1
Район |
Потребительские расходы на душу населения, тыс.руб., y |
Денежные доходы на душу населения, тыс.руб.,x |
Республика Башкортостан |
461 |
632 |
Удмуртская Республика |
524 |
738 |
Курганская область |
298 |
515 |
Оренбургская область |
351 |
640 |
Пермская область |
624 |
942 |
Свердловская область |
584 |
888 |
Челябинская область |
425 |
704 |
Республика Алтай |
277 |
603 |
Алтайский край |
321 |
439 |
Кемеровская область |
573 |
985 |
Новосибирская область |
576 |
735 |
Омская область |
588 |
760 |
Томская область |
497 |
830 |
Тюменская область |
863 |
2093 |
Fтабл. = 4,75 (=0,05) |
y=152,47 |
x=382,79 |
ТРЕБУЕТСЯ
1. Рассчитайте параметры уравнения линейной регрессии.
2. Оцените тесноту связи с помощью показателей корреляции и детерминации.
3. Определите среднюю ошибку аппроксимации. Сделайте вывод.
4. Оцените статистическую надежность регрессионного моделирования с помощью F-критерия Фишера и t-критерия Стьюдента.
5. Оцените полученные результаты, оформите выводы.
РЕШЕНИЕ.
1. А) Вводим данные в таблицу (EXCEL) – столбцы № x,y :
Район |
y |
x |
yx |
y-yx |
Ai |
|
1 |
Республика Башкортостан |
461 |
632 |
430,82 |
30,18 |
6,55 |
2 |
Удмуртская Республика |
524 |
738 |
466,86 |
57,14 |
10,90 |
3 |
Курганская область |
298 |
515 |
391,04 |
-93,04 |
31,22 |
4 |
Оренбургская область |
351 |
640 |
433,54 |
-82,54 |
23,52 |
5 |
Пермская область |
624 |
942 |
536,22 |
87,78 |
14,07 |
6 |
Свердловская область |
584 |
888 |
517,86 |
66,14 |
11,33 |
7 |
Челябинская область |
425 |
704 |
455,3 |
-30,3 |
7,13 |
8 |
Республика Алтай |
277 |
603 |
420,96 |
-143,96 |
51,97 |
9 |
Алтайский край |
321 |
439 |
365,2 |
-44,2 |
13,77 |
10 |
Кемеровская область |
573 |
985 |
550,84 |
22,16 |
3,87 |
11 |
Новосибирская область |
576 |
735 |
465,84 |
110,16 |
19,13 |
12 |
Омская область |
588 |
760 |
474,34 |
113,66 |
19,33 |
13 |
Томская область |
497 |
830 |
498,14 |
-1,14 |
0,23 |
14 |
Тюменская область |
863 |
2093 |
927,56 |
-64,56 |
7,48 |
Итого |
6962,00 |
11504,00 |
6934,52 |
|||
среднее значение |
497,29 |
821,71 |
495,32 |
15,75 |
||
152,47 |
382,79 |
|||||
2 |
23246,63 |
146524,63 |
Вычисление параметров линейного уравнения регрессии. С помощью инструмента Регрессия (Данные Анализ данных Регрессия) получаем следующие результаты.
ВЫВОД ИТОГОВ |
||||||
Регрессионная статистика |
||||||
Множественный R |
0,859604 |
|||||
R-квадрат |
0,738919 |
|||||
Нормированный R-квадрат |
0,717162 |
|||||
Стандартная ошибка |
84,14752 |
|||||
Наблюдения |
14 |
|||||
Дисперсионный анализ |
||||||
|
df |
SS |
MS |
F |
Значимость F |
|
Регрессия |
1 |
240483,2 |
240483,2 |
33,9627 |
8,11E-05 |
|
Остаток |
12 |
84969,65 |
7080,804 |
|||
Итого |
13 |
325452,9 |
||||
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
Y-пересечение |
215,9377 |
53,2585 |
4,054521 |
0,001597 |
99,89739 |
331,978 |
Денежные доходы на душу населения, тыс.руб.,x |
0,342392 |
0,058752 |
5,827752 |
8,11E-05 |
0,214382 |
0,470401 |
Записываем уравнение парной линейной регрессии
yx = 215,94+0,34x
Экономический смысл уравнения : с увеличением денежных доходов x на 1тыс.руб. - потребительские расходы y в среднем возрастает на 0,34 тыс. руб.
- Множественный коэффициент корреляции R=0,86
по формуле
rxy =b = 0,34*382,79/152,47=0,85.
Cвязь между переменными x и y прямая, сильная, тесная, т.е. величина потребительских расходов значительно зависит от денежных доходов.
- Коэффициент детерминации R2 = 0,74, т.е. в 74% случаев изменения денежных доходов приводят к изменению потребительских расходов. Другими словами точность подбора уравнения регрессии 74% - высокая.
3. Для определения средней ошибки аппроксимации рассчитываем столбцы yx, y-yx, Ai:
Ai =I I *100, =15,75
Получаем значение средней ошибки аппроксимации =15,8%
Это означает, что, в среднем, расчетные значения зависимого признака отклоняются от фактических значений на 15,8%. Величина ошибки аппроксимации говорит о плохом качестве модели.
А) по критерию Фишера
1. Выдвигаем нулевую гипотезу о статистической незначимости параметров регрессии и показателя корреляции a=b=rxy =0;
2. Фактическое значение критерия Fф = 33,96;
3. Для определения табличного значения критерия рассчитываем коэффициенты k1 =m=1 и
k2 = n-m-1=12 Fтабл = 4,75
4. Сравниваем фактическое и табличное значения критерия Fфакт Fтабл , т.е. нулевую гипотезу отклоняем и делаем вывод о статистической значимости и надежности полученной модели.
Б) по критерию Стьюдента:
1. Выдвигаем нулевую гипотезу о статистически незначимом отличии показателей от нуля: a=b=rxy =0;
2. Табличное значение t-критерия зависит от числа степеней свободы и заданного уровня значимости . Уровень значимости – это вероятность отвергнуть правильную гипотезу при условии, что она верна. Для числа степеней свободы 12 и уровня значимости =0,05 tтабл =2,18
3. Фактическое значение t- критерия рассчитываются отдельно для каждого параметра модели. С этой целью сначала определяются случайные ошибки параметров ma ,mb ,mrxy.
ma = 53,26, mb =0,06, mrxy =0,152, где Sост =.
n –число наблюдений, число независимых переменных.
Рассчитываем фактические значения t- критерия:
tфа = =215,94/53,26 = 4,05; tфr = = 0,85/0,152 = 5,6.
t фb = = 0,34/0,06 = 5,7;
4.Сравним фактические значения t-критерия с табличным значением:
tфа tтабл; tфb tтабл ; tфr tтабл .
Нулевую гипотезу отклоняем, параметры a,b,rxy – не случайно отличаются от нуля и являются статистически значимыми и надежными.
В) Чтобы рассчитать доверительный интервал для параметров регрессии a, b, необходимо определить предельную ошибку параметров:
a = tтабл ma = 2,18*53,26=116,11 a = tтабл mb =2,18*0,06 = 0,13
Доверительный интервалы: a = a ± a = 215,94 ± 116,11
99,83 a 332,05
b = b ± b = 0,34 ± 0,13
0,21 b 0,47
Анализ верхней и нижней границ доверительных интервалов показывает, что с вероятностью
p = 1 – = 0,95 параметры a и b не принимают нулевых значений, т.е. являются статистически значимыми и надежными.
Выводы:
- Уравнение парной линейной регрессии yx = 215,94+0,34x. Экономический смысл уравнения: с увеличением денежных доходов x на 1тыс.руб. - потребительские расходы y в среднем возрастает на 0,34 тыс. руб.
- Множественный коэффициент корреляции R=0,86 указывает на связь между переменными x и y прямая, сильная, тесная, т.е. величина потребительских расходов значительно зависит от денежных доходов.
- Коэффициент детерминации R2 = 0,74,показывает, что в 74% случаев изменения денежных доходов приводят к изменению потребительских расходов. Точность подбора уравнения регрессии 74% - высокая.
- Значение средней ошибки аппроксимации =15,8% означает, что среднем, расчетные значения зависимого признака отклоняются от фактических значений на 15,8%. Величина ошибки аппроксимации говорит о плохом качестве модели.
- Фактическое значение больше табличного значения критерия Fфакт Fтабл , указывает, что полученная модель статистически значима и надежна
- При сравнении фактических значений t-критерия с табличным значением, получаем, что параметры a,b,rxy – не случайно отличаются от нуля и являются статистически значимыми и надежными.
- Анализ верхней и нижней границ доверительных интервалов показывает, что с вероятностью p = 1 – = 0,95 параметры a и b не принимают нулевых значений, т.е. являются статистически значимыми и надежными.
Задача 2
По данным газеты «Из рук в руки» была сделана мной выборка данных о стоимости квартир на вторичном рынке за определенный период (от 25 мая 2009г). Выборка содержит 20 данных. В качестве факторов, влияющих на стоимость квартир выбрала число комнат (х1 ), общая площадь (х2 ), жилая площадь (х3 ), площадь кухни (х4 ). Необходимо построить уравнение регрессии, характеризующее зависимость цены от всех качеств. Оценить экономический смысл и значимость полученного уравнения.
1. Вводим данные в таблицу (EXCEL) – столбцы № x1 , х2 , х3 , х4 ,y. Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу [Приложение1]
0 |
x1 |
x2 |
x3 |
x4 |
y |
1 |
1 |
32 |
19 |
6 |
1200 |
2 |
1 |
36 |
18 |
6 |
1400 |
3 |
1 |
29 |
16 |
5 |
980 |
4 |
1 |
29 |
16 |
5 |
1100 |
5 |
2 |
43 |
28,8 |
9 |
1420 |
6 |
2 |
52 |
34 |
10 |
1950 |
7 |
2 |
45 |
30 |
9 |
980 |
8 |
2 |
46 |
29 |
9 |
1350 |
9 |
3 |
54 |
38 |
11 |
1800 |
10 |
4 |
58 |
40 |
12 |
2500 |
11 |
3 |
50 |
35 |
10 |
1700 |
12 |
3 |
60 |
38 |
11 |
2100 |
13 |
4 |
70 |
52 |
16 |
1750 |
14 |
4 |
70 |
52 |
16 |
2950 |
15 |
4 |
76 |
49 |
15 |
3500 |
16 |
4 |
68 |
47 |
14 |
2400 |
17 |
5 |
145 |
86 |
26 |
5800 |
18 |
5 |
82 |
65 |
19 |
4500 |
19 |
5 |
83 |
66 |
20 |
4000 |
20 |
5 |
130 |
78 |
24 |
6500 |
Сумма |
61 |
1258 |
836,8 |
253 |
49880 |
Ср. значение |
3,05 |
62,9 |
41,84 |
12,7 |
2494 |
Найдем средние квадратические отклонения признаков:
y = = 1556,86;
x1 = = 1,43;
x2 = = 29,74;
x3 = = 19,63;
x4 = = 5,90;
2. Вычисление параметров линейного уравнения множественной регрессии.
Для нахождения параметров линейного уравнения множественной регрессии
y = a + b1 x1 + b2 x2 + b3 x3 + b4 x4.
Найдем матрицу парных коэффициентов корреляции (Данные Анализ данных Корреляция)
Получаем следующий результат:
|
x1 |
x2 |
x3 |
x4 |
y |
x1 |
1 |
||||
x2 |
0,847337 |
1 |
|||
x3 |
0,940703 |
0,964635 |
1 |
||
x4 |
0,931673 |
0,968788 |
0,998364 |
1 |
|
y |
0,833719 |
0,949023 |
0,930686 |
0,934761 |
1 |
1 столбец матрицы содержит коэффициенты корреляции y с каждым из факторов x. Таким образом, наиболее сильное влияние на стоимость квартиры оказывают факторы x2 ;x3 ;x4 .
С помощью инструмента Регрессия (Данные Анализ данных Регрессия) получаем следующие результаты:
|
||||||
Регрессионная статистика |
||||||
Множественный R |
0,951256 |
|||||
R-квадрат |
0,904889 |
|||||
Нормированный R-квадрат |
0,879526 |
|||||
Стандартная ошибка |
554,416 |
|||||
Наблюдения |
20 |
|||||
Дисперсионный анализ |
||||||
df |
SS |
MS |
F |
Значимость F |
||
Регрессия |
4 |
43865823 |
10966455,67 |
35,6775234 |
1,69079E-07 |
|
Остаток |
15 |
4610657 |
307377,1554 |
|||
Итого |
19 |
48476480 |
||||
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
|
Y-пересечение |
-688,384 |
308,7638 |
-2,229485916 |
0,04148909 |
-1346,49885 |
-30,2701 |
x1 |
67,88611 |
351,3708 |
0,193203645 |
0,84939123 |
-681,042959 |
816,8152 |
x2 |
39,08366 |
21,70148 |
1,800967381 |
0,09184344 |
-7,17195183 |
85,33927 |
x3 |
-31,251 |
130,6937 |
-0,239116437 |
0,81425164 |
-309,817992 |
247,316 |
x4 |
144,2302 |
404,6624 |
0,35642105 |
0,72648905 |
-718,287253 |
1006,748 |
Таким образом, получили уравнение множественной регрессии:
yx = 67,89x1 + 39,08x2 - 31,25x3 +144,23x4 – 688,38
Экономический смысл уравнения: при увеличении числа комнат квартиры х1 , цена квартиры увеличивается на 67,89 тыс. руб.; при увеличении общей площади квартиры х2 , цена квартиры увеличивается на 39,08 тыс. руб.; при увеличении жилой площади квартиры х3 , цена квартиры уменьшается на 31,25 тыс. руб.; при увеличении площади кухни х4 , цена квартиры увеличивается на 144,23 тыс.руб.
- Остаточная дисперсия: 2 = 230532,9.
- Средняя ошибка аппроксимации: = 19%. Качество модели, исходя из относительных отклонений по каждому наблюдения, признается плохим, т.к. средняя ошибка аппроксимация превышает 15%.
- Множественный коэффициент корреляции R= 0,951.
- Коэффициент детерминации R2 = 0,905. Нескорректированный коэффициент детерминации R2 оценивает долю дисперсии стоимости за счет предоставленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 90,5% и указывает на весьма высокую степень обусловленности вариации стоимости с вариацией факторов, т.е. на весьма тесную связь факторов со стоимостью.
- Cкорректированный коэффициент детерминации 2 = 0,88 определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Все четыре коэффициента указывают на весьма высокую 88% детерминированность стоимости y в модели с факторами x1 , х2 , х3 , х4 .
3.Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает -критерия Фишера:
Число наблюдений n =20, число независимых переменных m=4, отсюда
k1 =4, k2 =20-4-1 =15.
Fфакт. = = 35,68.
Получили, что Fфакт. Fтабл. = 3,06 (при n=20), т.е. вероятность случайно получить такое значение F-критерия не превышает допустимый уровень значимости 5%. Таким образом, подтверждается статистическая значимость всего уравнения и показателя тесноты связи.
4. Оценим статистическую значимость параметров чистой регрессии с помощью t- критерия Стьюдента.
Фактические значения t-критерия:
tx4 = b4 /se4 = 144,23/404,66 = 0,356;
tx3 = b3 /se3 = -31,251/130,694= - 0,239;
tx2 = b2 /se2 = 39,08/21,7 =1,80;
tx1 = b1 /se1 = 67,89/351,4 = 0,193.
Табличное значение критерия при уровне значимости =0,05 и числе степеней k = 15 составит tтабл = 2,13.
Таким образом, признается статистическая значимость параметра x4, т.к. tx4 tтабл , и случайная природа формирования параметра x1 ,x2 ,x3 , tx1 tтабл , tx2 tтабл , tx3 tтабл .
Доверительные интервалы для параметров чистой регрессии:
-681,04 x1 816,82; -309,82 x3 247,32;
-7,17 x2 85,34; -718,29 x4 1006,75.
Выводы:
- Уравнение множественной регрессии
yx = 67,89x1 + 39,08x2 - 31,25x3 +144,23x4 – 688,38.
Экономический смысл уравнения: при увеличении числа комнат квартиры х1 , цена квартиры увеличивается на 67,89 тыс. руб.; при увеличении общей площади квартиры х2 , цена квартиры увеличивается на 39,08 тыс. руб.; при увеличении жилой площади квартиры х3 , цена квартиры уменьшается на 31,25 тыс. руб.; при увеличении площади кухни х4 , цена квартиры увеличивается на 144,23 тыс.руб.Множественный коэффициент корреляции R=0,95 указывает на связь между переменными x и y прямая, сильная, тесная, т.е. величина потребительских расходов значительно зависит от денежных доходов.
- Коэффициент детерминации R2 = 0,905, указывает на весьма высокую степень обусловленности вариации стоимости с вариацией факторов, т.е. на весьма тесную связь факторов со стоимостью. Точность подбора уравнения регрессии 95% - высокая.
- Cкорректированный коэффициент детерминации 2 = 0,88, указывают на весьма высокую 88% детерминированность стоимости y в модели с факторами x1 , х2 , х3 , х4 .
- Средняя ошибка аппроксимации: = 19%. Качество модели, исходя из относительных отклонений по каждому наблюдения, признается плохим, т.к. средняя ошибка аппроксимация превышает 15%.
- Фактическое значение больше табличного значения критерия Fфакт Fтабл , подтверждается статистическая значимость всего уравнения и показателя тесноты связи.
- При сравнении фактических значений t-критерия с табличным, признается статистическая значимость параметра x4, т.к. tx4 tтабл , и случайная природа формирования параметра x1 ,x2 ,x3 , tx1 tтабл , tx2 tтабл , tx3 tтабл .
Список литературы
1) Эконометрика: Учебник / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2006. – 576 с.
2) Практикум по эконометрике: Учеб. пособие / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2006. – 344 с.
3) Практикум по эконометрике с применение MS Excel / Шалабанов А.К., Роганов Д.А. – Казань: Издательский центр Академии управления «ТИСБИ», 2008 – 53 с.
4) Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. проф. Н.Ш. Кремера. – М.: ЮНИТИ-ДАНА, 2002. – 311 с.
№ |
X1 |
X2 |
X3 |
X4 |
y |
Y2 |
X1 2 |
X2 2 |
X3 2 |
X4 2 |
X1 *y |
x2 *y |
x3 *y |
x4 *y |
Yx |
y-yx |
(y-yx )2 |
Ai |
1 |
1 |
32 |
19 |
6 |
1200 |
1440000 |
1 |
1024 |
361 |
36 |
1200 |
38400 |
22800 |
7200 |
901,7 |
298,3 |
88982,9 |
24,858 |
2 |
1 |
36 |
18 |
6 |
1400 |
1960000 |
1 |
1296 |
324 |
36 |
1400 |
50400 |
25200 |
8400 |
1089,27 |
310,73 |
96553,1 |
22,195 |
3 |
1 |
29 |
16 |
5 |
980 |
960400 |
1 |
841 |
256 |
25 |
980 |
28420 |
15680 |
4900 |
733,98 |
246,02 |
60525,8 |
25,104 |
4 |
1 |
29 |
16 |
5 |
1100 |
1210000 |
1 |
841 |
256 |
25 |
1100 |
31900 |
17600 |
5500 |
733,98 |
366,02 |
133971 |
33,275 |
5 |
2 |
43 |
28,8 |
9 |
1420 |
2016400 |
4 |
1849 |
829,4 |
81 |
2840 |
61060 |
40896 |
12780 |
1525,91 |
-105,9 |
11216,9 |
7,4585 |
6 |
2 |
52 |
34 |
10 |
1950 |
3802500 |
4 |
2704 |
1156 |
100 |
3900 |
101400 |
66300 |
19500 |
1859,36 |
90,64 |
8215,61 |
4,6482 |
7 |
2 |
45 |
30 |
9 |
980 |
960400 |
4 |
2025 |
900 |
81 |
1960 |
44100 |
29400 |
8820 |
1566,57 |
-586,6 |
344064 |
59,854 |
8 |
2 |
46 |
29 |
9 |
1350 |
1822500 |
4 |
2116 |
841 |
81 |
2700 |
62100 |
39150 |
12150 |
1636,9 |
-286,9 |
82311,6 |
21,252 |
9 |
3 |
54 |
38 |
11 |
1800 |
3240000 |
9 |
2916 |
1444 |
121 |
5400 |
97200 |
68400 |
19800 |
2024,64 |
-224,6 |
50463,1 |
12,48 |
10 |
4 |
58 |
40 |
12 |
2500 |
6250000 |
16 |
3364 |
1600 |
144 |
10000 |
145000 |
100000 |
30000 |
2330,58 |
169,42 |
28703,1 |
6,7768 |
11 |
3 |
50 |
35 |
10 |
1700 |
2890000 |
9 |
2500 |
1225 |
100 |
5100 |
85000 |
59500 |
17000 |
1817,84 |
-117,8 |
13886,3 |
6,9318 |
12 |
3 |
60 |
38 |
11 |
2100 |
4410000 |
9 |
3600 |
1444 |
121 |
6300 |
126000 |
79800 |
23100 |
2259,12 |
-159,1 |
25319,2 |
7,5771 |
13 |
4 |
70 |
52 |
16 |
1750 |
3062500 |
16 |
4900 |
2704 |
256 |
7000 |
122500 |
91000 |
28000 |
3001,46 |
-1251 |
1566152 |
71,512 |
14 |
4 |
70 |
52 |
16 |
2950 |
8702500 |
16 |
4900 |
2704 |
256 |
11800 |
206500 |
153400 |
47200 |
3001,46 |
-51,46 |
2648,13 |
1,7444 |
15 |
4 |
76 |
49 |
15 |
3500 |
12250000 |
16 |
5776 |
2401 |
225 |
14000 |
266000 |
171500 |
52500 |
3185,46 |
314,54 |
98935,4 |
8,9869 |
16 |
4 |
68 |
47 |
14 |
2400 |
5760000 |
16 |
4624 |
2209 |
196 |
9600 |
163200 |
112800 |
33600 |
2791,09 |
-391,1 |
152951 |
16,295 |
17 |
5 |
145 |
86 |
26 |
5800 |
33640000 |
25 |
21025 |
7396 |
676 |
29000 |
841000 |
498800 |
150800 |
6380,15 |
-580,1 |
336574 |
10,003 |
18 |
5 |
82 |
65 |
19 |
4500 |
20250000 |
25 |
6724 |
4225 |
361 |
22500 |
369000 |
292500 |
85500 |
3564,75 |
935,25 |
874693 |
20,783 |
19 |
5 |
83 |
66 |
20 |
4000 |
16000000 |
25 |
6889 |
4356 |
400 |
20000 |
332000 |
264000 |
80000 |
3716,81 |
283,19 |
80196,6 |
7,0798 |
20 |
5 |
130 |
78 |
24 |
6500 |
42250000 |
25 |
16900 |
6084 |
576 |
32500 |
845000 |
507000 |
156000 |
5755,49 |
744,51 |
554295 |
11,454 |
С |
61 |
1258 |
836,8 |
253 |
49880 |
172877200 |
227 |
96814 |
42715 |
3897 |
2E+05 |
4016180 |
3E+06 |
802750 |
49876,5 |
3,48 |
4610658 |
380,27 |
Ср |
3,1 |
62,9 |
41,84 |
12,7 |
2494 |
8643860 |
11,4 |
4841 |
2136 |
194,9 |
9464 |
200809 |
132786 |
40138 |
2493,83 |
0,174 |
230533 |
19,013 |