Автор: Жукова Виктория Сергеевна
Должность: студент
Учебное заведение: АмГУ
Населённый пункт: г. Благовещенск
Наименование материала: научная статья
Тема: "Корреляционно-регрессионный анализ взаимосвязи между количеством браков в Амурской области и среднемесячной заработной платой на одного работника за 2010-2016 гг."
Раздел: высшее образование
Корреляционно-регрессионный анализ взаимосвязи между
количеством браков в Амурской области и среднемесячной заработной
платой на одного работника за 2010-2016 гг.
Жукова В.С., студент 2 курса.
ФГБОУ ВО «Амурский государственный университет», Российская
Федерация
Рассмотрим влияние средней заработной платы на количество браков в
Амурской области за 2010 – 2016 г.
В данном случае среднемесячная заработная плата является факторным
признаком (х), а количество браков – результативным (у).
Необходимо найти уравнение регрессии, характеризующее связь между
количеством
браков
и
среднемесячной
заработной
платой
в
Амурской
области.
Предположим, что связь между исследуемыми признаками линейная и
уравнение регрессии имеет вид:
y
x
=
a
0
+
a
1
∙ х
.
Параметры уравнения
a
0
и
a
1
вычисляются с помощью решения
системы
нормальных
уравнений.
Для
того
чтобы
заполнить
систему
нормальных
уравнений
фактическими
данными,
необходимо
определить
∑
xy ,
∑
x
2
,
∑
y
2
. Расчеты этих показателей представлены в таблице 1.
Таблица 1 – Расчет сумм для вычисления параметров уравнения прямой по
несгруппированным данным
Год
(х)
(у)
x
2
y
2
x
∙
y
y
х
(
y
-
y
х
)
(
y
−
y
х
)
2
2010
21207,5
7847
449758056,25
61575409
166415252,5
8343,465
−496,465
246477,496225
2011
24202,1
8255
585741644,41
68145025
199788335,5
7894,275
360,725
130122,525625
2012
26789,0
7649
717650521
58507201
204909061
7506,24
142,76
20380,4176
2013
30541,7
7396
932795438,89
54700816
225886413,2
6943,335
452,665
204905,602225
2014
32396,5
7100
1049533212,25
50410000
230015150
6665,115
434,885
189124,963225
2015
32901,7
6371
1082521862,89
40589641
209616730,7
6589,335
−218,335
47670,172225
2016
33836,8
5802
1144929034,24
33663204
196321113,6
6449,07
−647,07
418699,5849
Итого
201875,3
50420
5962929769,93
367591296 1432952056,5
50390,835
29,165
1257380,76203
Подставив в систему данные из таблицы, получаем:
a
0
=
50420 × 5962929769,93
−
1432952056,5 × 201875,3
7 × 5962929769,93
−
201875,3 × 201875,3
= 11524,59
a
1
=
7 × 1432952056,5
−
201875,3 × 50420
7 ×5962929769,93
−
201875,3× 201875,3
= -0,15
Исходя из полученных параметров, уравнение регрессии имеет вид:
y
x
=
11524,59
−
0,15 x
y
x
(
2010
)
=
11524,59
−
0,15
∗
21207,5
=
8343,465
Аналогично считаем
y
x
для остальных годов с 2011 по 2016.
По данному уравнению регрессии можно сделать вывод о том, что с
увеличением среднемесячной заработной платы, число браков снижается на
4,776 ед. в год.
Следующим этапом определим тесноту корреляционной связи между
факторным и результативным признаками. Для этого необходимо рассчитать
коэффициент корреляции и теоретическое корреляционное отношение.
Для расчета линейного коэффициента корреляции используем формулу:
r =
1432952056,5
−
(
201875,3× 50420
)
:7
√
(
5962929769,93
−
(
201875,3
)
2
7
)
×
(
367591296
−
(
50420
)
2
7
)
= -0,846
Линейный коэффициент корреляции, равный -0,846 показывает, что
связь
между
среднемесячной
заработной
платой
и
количеством
браков
обратная, т.е. при увеличении среднемесячной заработной платы снижается
количество заключенных браков. Теснота (сила) связи по шкале Чеддока –
высокая.
Произведем
расчет
теоретического
корреляционного
отношения,
предварительно
рассчитав
общую дисперсию, остаточную дисперсию и
факторную дисперсию:
Общая дисперсия показывает вариацию результативного признака под
влиянием всех факторов, вызывающих эту вариацию.
σ
y
2
=
∑
y
2
n
−
(
∑
y
n
)
2
=
367591296
7
−
(
50420
7
)
2
=¿
631891,2653
Общая дисперсия числа браков отображает совокупное влияние всех
факторов.
Остаточная
дисперсия
характеризует
вариацию
результативного
признака под влиянием прочих неучтенных факторов.
σ
y
−
y
x
2
=
∑
(
y
−
y
x
)
2
n
=
1257380,76203
7
=
179625,8231
Остаточная дисперсия отображает вариацию количества браков от всех
прочих факторов.
Факторная
дисперсия
характеризует
вариацию
результативного
признака под влиянием вариации признака-фактора.
σ
y
x
2
=
σ
y
2
−
σ
y
−
y
x
2
=
631891,2653
−
179625,8231
=
452265,4422
Факторная дисперсия отображает вариацию числа браков только от
воздействия изучаемого фактора – от среднемесячной заработной платы.
Зная
все
необходимые
дисперсии,
найдем
т е о р е т и ч е с ко е
корреляционное отношение по формуле:
n
=
√
σ
y
x
2
σ
y
2
=
√
452265,4422
631891,2653
=
√
0,7157
=
0.846
Полученное значение, равное 0,84, входит в интервал 0,7 ≤ η < 0,9 и
показывает о действительно существующей
сильной взаимосвязи между
исследуемыми факторным и результативным признаками.
Вычислим индекс корреляционной связи по формуле:
R
=
√
1
−
σ
y
−
y
x
2
σ
y
2
=
√
1
−
179625,8231
631891,2653
=
√
1
−
0,28426698225
=
0,
846
Все показатели тесноты связи показывают сильную зависимость между
признаками.
Все показатели тесноты связи показывают сильную зависимость между
признаками.
Так
как
r=η=R,
то
подтверждена
гипотеза
о
линейной
зависимости.
Далее вычислим коэффициент детерминации по формуле:
η
2
=
r
2
× 100 % = (-0,846)
2
× 100 % = 71,6 %
Коэффициент
детерминации
показывает,
что
вариация
количества
браков на 71,6 % определяется вариацией среднемесячной заработной платы
и на 28,4 % – прочими факторами.
Вычислим
коэффициент
эластичности,
чтобы
увидеть
соотношение
связи между исследуемыми признаками.
Для
нахождения
частного
коэффициента
эластичности
нужно
рассчитать средние значения факторного и результативного признака:
Средние
значения
будем
рассчитывать
по
формуле
средней
арифметической простой, используя формулу:
´
x
=
∑
x
i
n
=
201875,3
7
=
28839,3
´
y
=
∑
y
n
=
50420
7
=
7202,9
С
помощью
найденных
значений
рассчитаем
частный
коэффициент
эластичности по формуле:
Э
=
a
i
∗
´
x
i
´
y
=
−
0,15
∗
28839,3
7202,9
=−
0,6
или 60 %
Данное
значение
коэффициента
эластичности
показывает,
что
с
увеличением
среднемесячной
заработной
платы
на
1
%
число
браков
в
Амурской области уменьшится на 60 %.
Оценим адекватность регрессионной модели
y
x
=
a
0
+
a
1
×x
при малой
выборке с помощью критерия Фишера:
F
э
=
σ
y
x
2
σ
y
−
y
x
2
×
n
−
m
m
−
1
=
631891,2653
179625,8231
×
5
1
=
17,59
Табличное значение Фишера
F
т
=
6,61
при уровне значимости 0,05 и
степенях свободы (m-1) и (n-m). Так как полученное эмпирическое значение
критерия
больше
табличного
значения
F
(¿
¿
э
>
F
т
)
¿
,
уравнение
регрессии
признается значимым (адекватным).
С помощью критерия Стьюдента оценим значимость коэффициентов
линейного уравнения регрессии:
t
a
0
=
a
0
√
n
−
2
σ
y
−
y
x
=
11524,59
∗
√
5
423,82
=
60,80
a
1
=¿
a
1
√
n
−
2
σ
y
−
y
x
×σ
x
=
−
0,15
∗
√
5
423,82
× 4487,79
=−
3,55
t
¿
σ
x
=
√
∑
x
2
n
−
(
∑
x
n
)
2
=
√
5962929769,93
7
−
(
201875,3
7
)
2
=
4487,79
При
уровне
значимости
0,05
и
степени
свободы
k
1
=5
табличное
значение
t-критерия
Стьюдента
t
т
=
2,571.
Так
как
t
a
0
>
<
t
a
1
,
то
параметр
t
a
0
признается
значимым,
а
параметр
t
a
1
-
неадекватным
(незначимым).
Аналогично проводим оценку коэффициента корреляции (r) с помощью
t-критерия:
t
r
=
r
∗
√
n
−
2
1
−
r
2
=−
0,846×
√
5
1
−
0,715716
=−
3,548
Коэффициент
корреляции
признается
незначимым,
так
как
t
r
=−
3,548
<
t
т
=
2,571
.
На заключительном этапе анализа вычислим ошибку аппроксимации.
Для того, чтобы ее найти построим вспомогательную таблицу.
Таблица 2 – Расчёт сумм для вычисления ошибки аппроксимации
Год
(у)
(
y
-
y
х
)
|
(
y
−
y
х
)
|
|
y
−
y
x
|
y
2010
7847
−496,465
496,465
0,063
2011
8255
360,725
360,725
0,044
2012
7649
142,76
142,76
0,019
2013
7396
452,665
452,665
0,061
2014
7100
434,885
434,885
0,061
2015
6371
−218,335
218,335
0,034
2016
5802
−647,07
647,07
0,112
Итого
50420
29,165
-
0,394
´
ε
=
1
n
∑
|
y
−
y
x
|
y
×100
=
5.6
Ошибка аппроксимации составляет 5,6 %. Она не превышает 12-15 %,
что говорит о том, что был подобран правильный факторный признак, и все
расчеты были проведены правильно.
Таким
образом,
с
помощью
корреляционно-регрессионного
анализа
удалось
установить
высокую
обратную
связь
между
числом
браков
и
среднемесячной
заработной
платой
(коэффициент
корреляции
составил
-0,846):
чем
больше
становится
среднемесячная
заработная
плата,
тем
меньше будет зарегистрированных браков.