Напоминание

"Корреляционно-регрессионный анализ взаимосвязи между количеством браков в Амурской области и среднемесячной заработной платой на одного работника за 2010-2016 гг."


Автор: Жукова Виктория Сергеевна
Должность: студент
Учебное заведение: АмГУ
Населённый пункт: г. Благовещенск
Наименование материала: научная статья
Тема: "Корреляционно-регрессионный анализ взаимосвязи между количеством браков в Амурской области и среднемесячной заработной платой на одного работника за 2010-2016 гг."
Раздел: высшее образование





Назад




Корреляционно-регрессионный анализ взаимосвязи между

количеством браков в Амурской области и среднемесячной заработной

платой на одного работника за 2010-2016 гг.

Жукова В.С., студент 2 курса.

ФГБОУ ВО «Амурский государственный университет», Российская

Федерация

Рассмотрим влияние средней заработной платы на количество браков в

Амурской области за 2010 – 2016 г.

В данном случае среднемесячная заработная плата является факторным

признаком (х), а количество браков – результативным (у).

Необходимо найти уравнение регрессии, характеризующее связь между

количеством

браков

и

среднемесячной

заработной

платой

в

Амурской

области.

Предположим, что связь между исследуемыми признаками линейная и

уравнение регрессии имеет вид:

y

x

=

a

0

+

a

1

∙ х

.

Параметры уравнения

a

0

и

a

1

вычисляются с помощью решения

системы

нормальных

уравнений.

Для

того

чтобы

заполнить

систему

нормальных

уравнений

фактическими

данными,

необходимо

определить

xy ,

x

2

,

y

2

. Расчеты этих показателей представлены в таблице 1.

Таблица 1 – Расчет сумм для вычисления параметров уравнения прямой по

несгруппированным данным

Год

(х)

(у)

x

2

y

2

x

y

y

х

(

y

-

y

х

)

(

y

y

х

)

2

2010

21207,5

7847

449758056,25

61575409

166415252,5

8343,465

−496,465

246477,496225

2011

24202,1

8255

585741644,41

68145025

199788335,5

7894,275

360,725

130122,525625

2012

26789,0

7649

717650521

58507201

204909061

7506,24

142,76

20380,4176

2013

30541,7

7396

932795438,89

54700816

225886413,2

6943,335

452,665

204905,602225

2014

32396,5

7100

1049533212,25

50410000

230015150

6665,115

434,885

189124,963225

2015

32901,7

6371

1082521862,89

40589641

209616730,7

6589,335

−218,335

47670,172225

2016

33836,8

5802

1144929034,24

33663204

196321113,6

6449,07

−647,07

418699,5849

Итого

201875,3

50420

5962929769,93

367591296 1432952056,5

50390,835

29,165

1257380,76203

Подставив в систему данные из таблицы, получаем:

a

0

=

50420 × 5962929769,93

1432952056,5 × 201875,3

7 × 5962929769,93

201875,3 × 201875,3

= 11524,59

a

1

=

7 × 1432952056,5

201875,3 × 50420

7 ×5962929769,93

201875,3× 201875,3

= -0,15

Исходя из полученных параметров, уравнение регрессии имеет вид:

y

x

=

11524,59

0,15 x

y

x

(

2010

)

=

11524,59

0,15

21207,5

=

8343,465

Аналогично считаем

y

x

для остальных годов с 2011 по 2016.

По данному уравнению регрессии можно сделать вывод о том, что с

увеличением среднемесячной заработной платы, число браков снижается на

4,776 ед. в год.

Следующим этапом определим тесноту корреляционной связи между

факторным и результативным признаками. Для этого необходимо рассчитать

коэффициент корреляции и теоретическое корреляционное отношение.

Для расчета линейного коэффициента корреляции используем формулу:

r =

1432952056,5

(

201875,3× 50420

)

:7

(

5962929769,93

(

201875,3

)

2

7

)

×

(

367591296

(

50420

)

2

7

)

= -0,846

Линейный коэффициент корреляции, равный -0,846 показывает, что

связь

между

среднемесячной

заработной

платой

и

количеством

браков

обратная, т.е. при увеличении среднемесячной заработной платы снижается

количество заключенных браков. Теснота (сила) связи по шкале Чеддока –

высокая.

Произведем

расчет

теоретического

корреляционного

отношения,

предварительно

рассчитав

общую дисперсию, остаточную дисперсию и

факторную дисперсию:

Общая дисперсия показывает вариацию результативного признака под

влиянием всех факторов, вызывающих эту вариацию.

σ

y

2

=

y

2

n

(

y

n

)

2

=

367591296

7

(

50420

7

)

2

=¿

631891,2653

Общая дисперсия числа браков отображает совокупное влияние всех

факторов.

Остаточная

дисперсия

характеризует

вариацию

результативного

признака под влиянием прочих неучтенных факторов.

σ

y

y

x

2

=

(

y

y

x

)

2

n

=

1257380,76203

7

=

179625,8231

Остаточная дисперсия отображает вариацию количества браков от всех

прочих факторов.

Факторная

дисперсия

характеризует

вариацию

результативного

признака под влиянием вариации признака-фактора.

σ

y

x

2

=

σ

y

2

σ

y

y

x

2

=

631891,2653

179625,8231

=

452265,4422

Факторная дисперсия отображает вариацию числа браков только от

воздействия изучаемого фактора – от среднемесячной заработной платы.

Зная

все

необходимые

дисперсии,

найдем

т е о р е т и ч е с ко е

корреляционное отношение по формуле:

n

=

σ

y

x

2

σ

y

2

=

452265,4422

631891,2653

=

0,7157

=

0.846

Полученное значение, равное 0,84, входит в интервал 0,7 ≤ η < 0,9 и

показывает о действительно существующей

сильной взаимосвязи между

исследуемыми факторным и результативным признаками.

Вычислим индекс корреляционной связи по формуле:

R

=

1

σ

y

y

x

2

σ

y

2

=

1

179625,8231

631891,2653

=

1

0,28426698225

=

0,

846

Все показатели тесноты связи показывают сильную зависимость между

признаками.

Все показатели тесноты связи показывают сильную зависимость между

признаками.

Так

как

r=η=R,

то

подтверждена

гипотеза

о

линейной

зависимости.

Далее вычислим коэффициент детерминации по формуле:

η

2

=

r

2

× 100 % = (-0,846)

2

× 100 % = 71,6 %

Коэффициент

детерминации

показывает,

что

вариация

количества

браков на 71,6 % определяется вариацией среднемесячной заработной платы

и на 28,4 % – прочими факторами.

Вычислим

коэффициент

эластичности,

чтобы

увидеть

соотношение

связи между исследуемыми признаками.

Для

нахождения

частного

коэффициента

эластичности

нужно

рассчитать средние значения факторного и результативного признака:

Средние

значения

будем

рассчитывать

по

формуле

средней

арифметической простой, используя формулу:

´

x

=

x

i

n

=

201875,3

7

=

28839,3

´

y

=

y

n

=

50420

7

=

7202,9

С

помощью

найденных

значений

рассчитаем

частный

коэффициент

эластичности по формуле:

Э

=

a

i

´

x

i

´

y

=

0,15

28839,3

7202,9

=−

0,6

или 60 %

Данное

значение

коэффициента

эластичности

показывает,

что

с

увеличением

среднемесячной

заработной

платы

на

1

%

число

браков

в

Амурской области уменьшится на 60 %.

Оценим адекватность регрессионной модели

y

x

=

a

0

+

a

1

×x

при малой

выборке с помощью критерия Фишера:

F

э

=

σ

y

x

2

σ

y

y

x

2

×

n

m

m

1

=

631891,2653

179625,8231

×

5

1

=

17,59

Табличное значение Фишера

F

т

=

6,61

при уровне значимости 0,05 и

степенях свободы (m-1) и (n-m). Так как полученное эмпирическое значение

критерия

больше

табличного

значения

F

(¿

¿

э

>

F

т

)

¿

,

уравнение

регрессии

признается значимым (адекватным).

С помощью критерия Стьюдента оценим значимость коэффициентов

линейного уравнения регрессии:

t

a

0

=

a

0

n

2

σ

y

y

x

=

11524,59

5

423,82

=

60,80

a

1

=¿

a

1

n

2

σ

y

y

x

×σ

x

=

0,15

5

423,82

× 4487,79

=−

3,55

t

¿

σ

x

=

x

2

n

(

x

n

)

2

=

5962929769,93

7

(

201875,3

7

)

2

=

4487,79

При

уровне

значимости

0,05

и

степени

свободы

k

1

=5

табличное

значение

t-критерия

Стьюдента

t

т

=

2,571.

Так

как

t

a

0

>

<

t

a

1

,

то

параметр

t

a

0

признается

значимым,

а

параметр

t

a

1

-

неадекватным

(незначимым).

Аналогично проводим оценку коэффициента корреляции (r) с помощью

t-критерия:

t

r

=

r

n

2

1

r

2

=−

0,846×

5

1

0,715716

=−

3,548

Коэффициент

корреляции

признается

незначимым,

так

как

t

r

=−

3,548

<

t

т

=

2,571

.

На заключительном этапе анализа вычислим ошибку аппроксимации.

Для того, чтобы ее найти построим вспомогательную таблицу.

Таблица 2 – Расчёт сумм для вычисления ошибки аппроксимации

Год

(у)

(

y

-

y

х

)

|

(

y

y

х

)

|

|

y

y

x

|

y

2010

7847

−496,465

496,465

0,063

2011

8255

360,725

360,725

0,044

2012

7649

142,76

142,76

0,019

2013

7396

452,665

452,665

0,061

2014

7100

434,885

434,885

0,061

2015

6371

−218,335

218,335

0,034

2016

5802

−647,07

647,07

0,112

Итого

50420

29,165

-

0,394

´

ε

=

1

n

|

y

y

x

|

y

×100

=

5.6

Ошибка аппроксимации составляет 5,6 %. Она не превышает 12-15 %,

что говорит о том, что был подобран правильный факторный признак, и все

расчеты были проведены правильно.

Таким

образом,

с

помощью

корреляционно-регрессионного

анализа

удалось

установить

высокую

обратную

связь

между

числом

браков

и

среднемесячной

заработной

платой

(коэффициент

корреляции

составил

-0,846):

чем

больше

становится

среднемесячная

заработная

плата,

тем

меньше будет зарегистрированных браков.



В раздел образования