Авторы: Редина Екатерина Яновна, Левинская Диана Станиславовна
Должность: Студенты
Учебное заведение: РЭУ им. Г. В. Плеханова
Населённый пункт: Краснодар
Наименование материала: Статья
Тема: ЛИНЕЙНАЯ РЕГРЕССИЯ
Раздел: высшее образование
Редина Екатерина Яновна
Студент
2 курса, финансово-экономического факультета
Краснодарский филиал РЭУ им. Г.В. Плеханова
Россия, г. Краснодар
Левинская Диана Станиславовна
Студент
2 курса, финансово-экономического факультета
Краснодарский филиал РЭУ им. Г.В. Плеханова
Россия, г. Краснодар
ЛИНЕЙНАЯ РЕГРЕССИЯ
Аннотация:
В задаче аппроксимации ключевую роль играет выделение
значимых параметров объектов и оценка их численных значений. Тем не
менее, даже получив хорошие численные данные, нужно суметь правильно
ими
воспользоваться.
Иногда
кажется,
что
дальнейшее
решение
задачи
тривиальное, и хочется «из общих соображений» получить из численных
данных
результат
приближения.
Но
результат
в
этом
случае
получается
далеко не оптимальный. В данной статье на примере задачи будет показано,
как можно легко применить простейшие математические модели и за счет
этого существенно улучшить результаты аппроксимации.
Ключевые
слова: Линейная
регрессия,
коэффициенты,
зависимость,
уравнение, параметры.
Abstract: In the recognition problem, the key role is played by the selection
of significant parameters of objects and the evaluation of their numerical values.
Nevertheless, even having received good numerical data, it is necessary to manage
to use them correctly. Sometimes it seems that the further solution of the problem
is trivial, and one would like “from general considerations” to obtain a recognition
result from numerical data. But the result in this case is far from optimal. In this
article, using the example of the problem, it will be shown how you can easily
apply the simplest mathematical models and thereby significantly improve the
results.
K e y
w o r d s : Linear
regression,
coefficients,
dependence,
equation,
parameters.
В математической статистике линейная регрессия представляет собой
метод
аппроксимации
зависимостей
между
входными
и
выходными
переменными на основе линейной модели. Является частью более широкой
статистической методики, называемой регрессионным анализом.
В
регрессионном
анализе
входные
(независимые)
переменные
называются
также
предикторными
переменными
или
регрессорами,
а
зависимые переменные - критериальными.
Если рассматривается линейная зависимость между одной входной и
одной выходной переменными, то имеет место простая линейная регрессия.
Для
этого
определяется
уравнение
регрессии
y=ax+b
и
строится
соответствующая прямая, известная как линия регрессии.
Коэффициенты
a
и
b,
называемые
также
параметрами
модели,
определяются
таким
образом,
чтобы
сумма
квадратов
отклонений
точек,
соответствующих реальным наблюдениям данных, от линии регрессии, была
бы минимальной. Коэффициенты обычно оцениваются методом наименьших
квадратов.
Если
ведется
поиск
линейной
зависимости
между
несколькими
входными и одной выходной переменными, то имеет место множественная
линейная регрессия. Соответствующее уравнение имеет вид:
Y=b
0
+b
1
x
1
+b
2
x
2
+
⋯
+b
n
x
n,
где n – число входных переменных. Очевидно, что в данном случае
модель будет описываться не прямой, а гиперплоскостью. Коэффициенты
уравнения
множественной
линейной
регрессии
подбираются
так,
чтобы
минимизировать сумму квадратов отклонения реальных точек данных от этой
гиперплоскости.
Линейная регрессия была первым объетом регрессионного анализа,
который
был
тщательно
изучен
и
начал
широко
использоваться
в
практических приложениях. Это связано с тем, что в линейных моделях
оценивание параметров проще, а также с тем, что статистические свойства
полученных оценок легче определить.
Линейная
регрессия
имеет
много
практических
применений.
Большинство приложений попадают в одну из двух широких категорий:
Если
целью
является
прогнозирование,
линейную
регрессию
можно
использовать для подгонки модели к наблюдаемому набору данных.
Если цель заключается в том, чтобы объяснить изменчивость выходной
переменной,
можно
применить
линейный
регрессионный
анализ
для
количественной оценки силы взаимосвязи между выходной и входными
переменными.
Продемонстрируем описанные свойства и характеристики линейной
регрессии на примере задачи: в таблице приведены данные о прибыли Y (в
тыс. руб.) в зависимости от доли товара А в грузообороте X (%).
X
i
34
38
30.5
28.6
20.7
22.3
35.6
40.5
y
i
1200
1820
950
760
129
650
1450
2100
1.
Построить
корреляционное
поле.
Выдвинуть
предположение
о
характере статистической зависимости между переменными X и Y.
2.
Найти
параметры
линейного
уравнения
регрессии
^
y
i
=
b x
i
+
a
.
Поясните экономический смысл выборочного коэффициента регрессии.
3. Найти коэффициент парной корреляции и оценить тесноту связи на
основе таблицы Чеддока.
4. Найти коэффициент детерминации R
2
.
5. Оценить статистическую значимость уравнения регрессии на уровне
0,05, используя F-статистику.
6.
Вычислить
прогнозное
значение
при
прогнозном
значении x0,
составляющем 130% от среднего уровня x.
Для решения задачи вполним следующие действия:
1. Построим корреляционное поле и линейное уравнение регрессии
Анализ рисунка позволяет сделать предположение о наличии сильной
линейной зависимости прибыли Y от доли товара А в грузообороте X. При
этом связь имеет положительную тенденцию, т.е. с увеличением доли товара
А в грузообороте увеличивается прибыль.
2. Составим расчетную таблицу.
№
Товарооб. (х)
Прибыль (у)
xу
х
2
у
2
1
34
1200
40800
1156
1440000
2
38
1820
69160
1444
3312400
3
30,5
950
28975
930,25
902500
4
28,6
760
21736
817,96
577600
5
20,7
129
2670,3
428,49
16641
6
22,3
650
14495
497,29
422500
7
35,6
1450
51620
1267,3
6
2102500
8
40,5
2100
85050
1640,2
5
4410000
∑
250,2
9059
314506,
3
8181,6
1318414
1
Ср.зн.
31,28
1132,38
39313,2
9
1022,7
1648018
σ
6,68
604,77
σ
2
44,57
365744,48
Найдем параметры линейного уравнения регрессии по формулам:
b
=
´
xy
−
´
x
´
y
´
x
2
− ´
x
2
=
39913.29
−
31.28
∗
1132.38
1022.7
−
31.28
2
=
87.455
a
=
´
y
−
b
´
x
=
31.28
−
87.455
∗
1132.38
=−
1602.785
Таким образом, уравнение регрессии:
y
=−
1602.785
+
87.455 x
Выборочный коэффициент регрессии b показывает, что при увеличении
доли товара А в грузообороте на 1 % прибыль предприятия в среднем
увеличивается на 87,455 тыс. руб.
3. Найдем коэффициент парной корреляции по формуле:
√
( ¿
´
x
2
−
´
x
−
2
) (
´
y
2
−
´
y
−
2
)=
39913.29
−
31.28
∗
1132.38
√
(
1022.7
−
31.28
2
)(
1648017.63
−
1132.38
2
)
=
0.965
r
xy
=
´
xy
− ´
x
´
y
¿
Таким образом, линейная связь между переменными X и Y прямая,
очень сильная.
4. Коэффициент детерминации:
R
2
=
r
xy
2
=
0.965
2
=
0.9321
Таким
образом,
изменение
прибыли
Y
на
93,21%
обусловлено
изменением доли товара А в грузообороте X и на 6,79% – действием других
неучтенных в модели факторов.
5. Оценим статистическую значимость уравнения регрессии, используя
F-статистику с 95% надежностью.
С
помощью
критерия
Фишера
проверяется
нулевая
гипотеза
Н0
о
статистической
незначимости
уравнения
регрессии.
Конкурирующая
гипотеза – уравнение регрессии статистически значимо.
F
нвбл.
=
R
2
1
−
R
2
n
−
2
=
0.9321
1
−
0.9321
∗
6
=
137.35
F
табл.
=
5.99
Вывод: расчетное значение F критерия 62,39 больше табличного 5,99 –
коэффициент детерминации и регрессия в целом значимы на уровне
0,05.
6.
Вычислим
прогнозное
значение
y
0
при
прогнозном
значении
x
0
,
составляющем 130% от среднего уровня x:
y
0
=
19.601
+
0.011
∗
(
1.3 x
0
)
=−
1602.785
+
87.455
∗
(
1.3
∗
31.28
)
=
1953.458 тыс . руб .
Подводя итог можно сказать, что на примере рассмотренной задачи
было показано, как можно легко применить простейшие эконометричекие
модели и за счет этого существенно улучшить результаты прогнозирования и
аппроксимации данных.
Список использованных источников:
1.
Маркушина
А.А.,
Винсковская
Л.А. Способы
реализации
экономико-
математических
моделей.
В
сборнике: Современное
развитие
России
в
условиях новой цифровой экономики, материалы II Международной научно-
практической конференции. 2018. С. 399-405
2. Эконометрика / Валентинов В.А., - 3-е изд. - М.:Дашков и К, 2016. - 436 с
3. Эконометрика: Учебник для бакалавров / Яковлев В.П. - М.:Дашков и К,
2016. - 384 с