Оценка статистической значимости уравнения регрессии и его параметров. Проверка значимости уравнения регрессии
Оценка статистической значимости параметров и уравнения в целом – это обязательная процедура, которая позволяет сделать ввод о возможности использования построенного уравнения связи для принятия управленческих решений и прогнозирования.
Оценка статистической значимости уравнения регрессии осуществляется с использованием F-критерия Фишера, который представляет собой отношение факторной и остаточных дисперсий, рассчитанных на одну степень свободы.
Факторная дисперсия – объясненная часть вариации признака-результата, то есть обусловленная вариацией тех факторов, которые включены в анализ (в уравнение):
где k – число факторов в уравнении регрессии (число степеней свободы факторной дисперсии); - среднее значение зависимой переменной; - теоретическое (рассчитанное по уравнению регрессии) значение зависимой переменной у i – й единицы совокупности.
Остаточная дисперсия – необъясненная часть вариации признака-результата, то есть обусловленная вариацией прочих факторов, не включенных в анализ.
= , (71)
где - фактическое значение зависимой переменной у i – й единицы совокупности; n-k-1 – число степеней свободы остаточной дисперсии; n – объем совокупности.
Сумма факторной и остаточной дисперсий, как отмечалось выше, есть общая дисперсия признака-результата.
F-критерия Фишера рассчитывается по следующей формуле:
F-критерий Фишера – величина, отражающая соотношение объясненной и необъясненной дисперсий, позволяет ответить на вопрос: объясняют ли включенные в анализ факторы статистическую значимую часть вариации признака-результата. F-критерий Фишера табулирован (входом в таблицу является число степеней свободы факторной и остаточной дисперсий). Если , то уравнение регрессии признается статистически значимым и, соответственно, статистически значим коэффициент детерминации. В противном случае, уравнение – статистически не значимо, т.е. не объясняет существенной части вариации признака-результата.
Оценка статистической значимости параметров уравнения осуществляется на основе t-статистики, которая рассчитывается как отношение модуля параметров уравнения регрессии к их стандартным ошибкам ():
, где ; (73)
, где . (74)
В любой статистической программе расчет параметров всегда сопровождается расчетом значений их стандартных (среднеквадратических) ошибок и t-статистики. Параметр признаются статистически значимым, если фактическое значение t-статистики больше табличного.
Оценка параметров на основе t-статистики, по существу, является проверкой нулевой гипотезы о равенстве генеральных параметров нулю (H 0: =0; H 0: =0;), то есть о не значимости параметров уравнения регрессии. Уровень значимости принятия нулевых гипотез = 1-0,95=0,05 (0,95 – уровень вероятности, как правило, устанавливаемый в экономических расчетах). Если расчетный уровень значимости меньше 0,05 , то нулевая гипотеза отвергается и принимается альтернативная - о статистической значимости параметра.
Проводя оценку статистической значимости уравнения регрессии и его параметров, мы можем получить различное сочетание результатов.
· Уравнение по F-критерию статистически значимо и все параметры уравнения по t-статистике тоже статистически значимы. Данное уравнение может быть использовано как для принятия управленческих решений (на какие факторы следует воздействовать, чтобы получить желаемый результат), так и для прогнозирования поведения признака-результата при тех или иных значениях факторов.
· По F-критерию уравнение статистически значимо, но незначимы отдельные параметры уравнения. Уравнение может быть использовано для принятия управленческих решений (касающихся тех факторов, по которым получено подтверждение статистической значимости их влияния), но уравнение не может быть использовано для прогнозирования.
· Уравнение по F-критерию статистически незначимо. Уравнение не может быть использовано. Следует продолжить поиск значимых признаков-факторов или аналитической формы связи аргументов и отклика.
Если подтверждена статистическая значимость уравнения и его параметров, то может быть реализован, так называемый, точечный прогноз, т.е. рассчитывается вероятное значение признака-результата (y) при тех или иных значениях факторов (x). Совершенно очевидно, что прогнозное значение зависимой переменной не будет совпадать с фактическим ее значением. Это связано, прежде всего, с самой сутью корреляционной зависимости. Одновременно на результат воздействует множество факторов, из которых только часть может быть учтена в уравнении связи. Кроме того, может быть неверно выбрана форма связи результата и факторов (тип уравнения регрессии). Между фактическими значениями признака-результата и его теоретическими (прогнозными) значениями всегда существует различие (). Графически эта ситуация выражается в том, что не все точки поля корреляции лежат на линии регрессии. Лишь при функциональной связи линия регрессии пройдет через все точки поля корреляции. Разность между фактическими и теоретическими значениями результативного признака называют отклонениями или ошибками, или остатками. На основе этих величин и рассчитывается остаточная дисперсия, являющаяся оценкой среднеквадратической ошибки уравнения регрессии. Величина стандартной ошибки используется для расчета доверительных интервалов прогнозного значения признака-результата (Y).
Регрессионный анализ — это статистический метод исследования, позволяющий показать зависимость того или иного параметра от одной либо нескольких независимых переменных. В докомпьютерную эру его применение было достаточно затруднительно, особенно если речь шла о больших объемах данных. Сегодня, узнав как построить регрессию в Excel, можно решать сложные статистические задачи буквально за пару минут. Ниже представлены конкретные примеры из области экономики.
Виды регрессии
Само это понятие было введено в математику в 1886 году. Регрессия бывает:
- линейной;
- параболической;
- степенной;
- экспоненциальной;
- гиперболической;
- показательной;
- логарифмической.
Пример 1
Рассмотрим задачу определения зависимости количества уволившихся членов коллектива от средней зарплаты на 6 промышленных предприятиях.
Задача. На шести предприятиях проанализировали среднемесячную заработную плату и количество сотрудников, которые уволились по собственному желанию. В табличной форме имеем:
Количество уволившихся | Зарплата |
||
30000 рублей |
|||
35000 рублей |
|||
40000 рублей |
|||
45000 рублей |
|||
50000 рублей |
|||
55000 рублей |
|||
60000 рублей |
Для задачи определения зависимости количества уволившихся работников от средней зарплаты на 6 предприятиях модель регрессии имеет вид уравнения Y = а 0 + а 1 x 1 +…+а k x k , где х i — влияющие переменные, a i — коэффициенты регрессии, a k — число факторов.
Для данной задачи Y — это показатель уволившихся сотрудников, а влияющий фактор — зарплата, которую обозначаем X.
Использование возможностей табличного процессора «Эксель»
Анализу регрессии в Excel должно предшествовать применение к имеющимся табличным данным встроенных функций. Однако для этих целей лучше воспользоваться очень полезной надстройкой «Пакет анализа». Для его активации нужно:
- с вкладки «Файл» перейти в раздел «Параметры»;
- в открывшемся окне выбрать строку «Надстройки»;
- щелкнуть по кнопке «Перейти», расположенной внизу, справа от строки «Управление»;
- поставить галочку рядом с названием «Пакет анализа» и подтвердить свои действия, нажав «Ок».
Если все сделано правильно, в правой части вкладки «Данные», расположенном над рабочим листом «Эксель», появится нужная кнопка.
в Excel
Теперь, когда под рукой есть все необходимые виртуальные инструменты для осуществления эконометрических расчетов, можем приступить к решению нашей задачи. Для этого:
- щелкаем по кнопке «Анализ данных»;
- в открывшемся окне нажимаем на кнопку «Регрессия»;
- в появившуюся вкладку вводим диапазон значений для Y (количество уволившихся работников) и для X (их зарплаты);
- подтверждаем свои действия нажатием кнопки «Ok».
В результате программа автоматически заполнит новый лист табличного процессора данными анализа регрессии. Обратите внимание! В Excel есть возможность самостоятельно задать место, которое вы предпочитаете для этой цели. Например, это может быть тот же лист, где находятся значения Y и X, или даже новая книга, специально предназначенная для хранения подобных данных.
Анализ результатов регрессии для R-квадрата
В Excel данные полученные в ходе обработки данных рассматриваемого примера имеют вид:
Прежде всего, следует обратить внимание на значение R-квадрата. Он представляет собой коэффициент детерминации. В данном примере R-квадрат = 0,755 (75,5%), т. е. расчетные параметры модели объясняют зависимость между рассматриваемыми параметрами на 75,5 %. Чем выше значение коэффициента детерминации, тем выбранная модель считается более применимой для конкретной задачи. Считается, что она корректно описывает реальную ситуацию при значении R-квадрата выше 0,8. Если R-квадрата<0,5, то такой анализа регрессии в Excel нельзя считать резонным.
Анализ коэффициентов
Число 64,1428 показывает, каким будет значение Y, если все переменные xi в рассматриваемой нами модели обнулятся. Иными словами можно утверждать, что на значение анализируемого параметра оказывают влияние и другие факторы, не описанные в конкретной модели.
Следующий коэффициент -0,16285, расположенный в ячейке B18, показывает весомость влияния переменной Х на Y. Это значит, что среднемесячная зарплата сотрудников в пределах рассматриваемой модели влияет на число уволившихся с весом -0,16285, т. е. степень ее влияния совсем небольшая. Знак «-» указывает на то, что коэффициент имеет отрицательное значение. Это очевидно, так как всем известно, что чем больше зарплата на предприятии, тем меньше людей выражают желание расторгнуть трудовой договор или увольняется.
Множественная регрессия
Под таким термином понимается уравнение связи с несколькими независимыми переменными вида:
y=f(x 1 +x 2 +…x m) + ε, где y — это результативный признак (зависимая переменная), а x 1 , x 2 , …x m — это признаки-факторы (независимые переменные).
Оценка параметров
Для множественной регрессии (МР) ее осуществляют, используя метод наименьших квадратов (МНК). Для линейных уравнений вида Y = a + b 1 x 1 +…+b m x m + ε строим систему нормальных уравнений (см. ниже)
Чтобы понять принцип метода, рассмотрим двухфакторный случай. Тогда имеем ситуацию, описываемую формулой
Отсюда получаем:
где σ — это дисперсия соответствующего признака, отраженного в индексе.
МНК применим к уравнению МР в стандартизируемом масштабе. В таком случае получаем уравнение:
в котором t y , t x 1, … t xm — стандартизируемые переменные, для которых средние значения равны 0; β i — стандартизированные коэффициенты регрессии, а среднеквадратическое отклонение — 1.
Обратите внимание, что все β i в данном случае заданы, как нормируемые и централизируемые, поэтому их сравнение между собой считается корректным и допустимым. Кроме того, принято осуществлять отсев факторов, отбрасывая те из них, у которых наименьшие значения βi.
Задача с использованием уравнения линейной регрессии
Предположим, имеется таблица динамики цены конкретного товара N в течение последних 8 месяцев. Необходимо принять решение о целесообразности приобретения его партии по цене 1850 руб./т.
номер месяца | название месяца | цена товара N |
|
1750 рублей за тонну |
|||
1755 рублей за тонну |
|||
1767 рублей за тонну |
|||
1760 рублей за тонну |
|||
1770 рублей за тонну |
|||
1790 рублей за тонну |
|||
1810 рублей за тонну |
|||
1840 рублей за тонну |
|||
Для решения этой задачи в табличном процессоре «Эксель» требуется задействовать уже известный по представленному выше примеру инструмент «Анализ данных». Далее выбирают раздел «Регрессия» и задают параметры. Нужно помнить, что в поле «Входной интервал Y» должен вводиться диапазон значений для зависимой переменной (в данном случае цены на товар в конкретные месяцы года), а в «Входной интервал X» — для независимой (номер месяца). Подтверждаем действия нажатием «Ok». На новом листе (если так было указано) получаем данные для регрессии.
Строим по ним линейное уравнение вида y=ax+b, где в качестве параметров a и b выступают коэффициенты строки с наименованием номера месяца и коэффициенты и строки «Y-пересечение» из листа с результатами регрессионного анализа. Таким образом, линейное уравнение регрессии (УР) для задачи 3 записывается в виде:
Цена на товар N = 11,714* номер месяца + 1727,54.
или в алгебраических обозначениях
y = 11,714 x + 1727,54
Анализ результатов
Чтобы решить, адекватно ли полученное уравнения линейной регрессии, используются коэффициенты множественной корреляции (КМК) и детерминации, а также критерий Фишера и критерий Стьюдента. В таблице «Эксель» с результатами регрессии они выступают под названиями множественный R, R-квадрат, F-статистика и t-статистика соответственно.
КМК R дает возможность оценить тесноту вероятностной связи между независимой и зависимой переменными. Ее высокое значение свидетельствует о достаточно сильной связи между переменными «Номер месяца» и «Цена товара N в рублях за 1 тонну». Однако, характер этой связи остается неизвестным.
Квадрат коэффициента детерминации R 2 (RI) представляет собой числовую характеристику доли общего разброса и показывает, разброс какой части экспериментальных данных, т.е. значений зависимой переменной соответствует уравнению линейной регрессии. В рассматриваемой задаче эта величина равна 84,8%, т. е. статистические данные с высокой степенью точности описываются полученным УР.
F-статистика, называемая также критерием Фишера, используется для оценки значимости линейной зависимости, опровергая или подтверждая гипотезу о ее существовании.
(критерий Стьюдента) помогает оценивать значимость коэффициента при неизвестной либо свободного члена линейной зависимости. Если значение t-критерия > t кр, то гипотеза о незначимости свободного члена линейного уравнения отвергается.
В рассматриваемой задаче для свободного члена посредством инструментов «Эксель» было получено, что t=169,20903, а p=2,89Е-12, т. е. имеем нулевую вероятность того, что будет отвергнута верная гипотеза о незначимости свободного члена. Для коэффициента при неизвестной t=5,79405, а p=0,001158. Иными словами вероятность того, что будет отвергнута верная гипотеза о незначимости коэффициента при неизвестной, равна 0,12%.
Таким образом, можно утверждать, что полученное уравнение линейной регрессии адекватно.
Задача о целесообразности покупки пакета акций
Множественная регрессия в Excel выполняется с использованием все того же инструмента «Анализ данных». Рассмотрим конкретную прикладную задачу.
Руководство компания «NNN» должно принять решение о целесообразности покупки 20 % пакета акций АО «MMM». Стоимость пакета (СП) составляет 70 млн американских долларов. Специалистами «NNN» собраны данные об аналогичных сделках. Было принято решение оценивать стоимость пакета акций по таким параметрам, выраженным в миллионах американских долларов, как:
- кредиторская задолженность (VK);
- объем годового оборота (VO);
- дебиторская задолженность (VD);
- стоимость основных фондов (СОФ).
Кроме того, используется параметр задолженность предприятия по зарплате (V3 П) в тысячах американских долларов.
Решение средствами табличного процессора Excel
Прежде всего, необходимо составить таблицу исходных данных. Она имеет следующий вид:
- вызывают окно «Анализ данных»;
- выбирают раздел «Регрессия»;
- в окошко «Входной интервал Y» вводят диапазон значений зависимых переменных из столбца G;
- щелкают по иконке с красной стрелкой справа от окна «Входной интервал X» и выделяют на листе диапазон всех значений из столбцов B,C, D, F.
Отмечают пункт «Новый рабочий лист» и нажимают «Ok».
Получают анализ регрессии для данной задачи.
Изучение результатов и выводы
«Собираем» из округленных данных, представленных выше на листе табличного процессора Excel, уравнение регрессии:
СП = 0,103*СОФ + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.
В более привычном математическом виде его можно записать, как:
y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844
Данные для АО «MMM» представлены в таблице:
Подставив их в уравнение регрессии, получают цифру в 64,72 млн американских долларов. Это значит, что акции АО «MMM» не стоит приобретать, так как их стоимость в 70 млн американских долларов достаточно завышена.
Как видим, использование табличного процессора «Эксель» и уравнения регрессии позволило принять обоснованное решение относительно целесообразности вполне конкретной сделки.
Теперь вы знаете, что такое регрессия. Примеры в Excel, рассмотренные выше, помогут вам в решение практических задач из области эконометрики.
ТЕМА 4. СТАТИСТИЧЕСКИЕ МЕТОДЫ ИЗУЧЕНИЯ СВЯЗЕЙ
Уравнение регрессии - этоаналитическое представление корреляционной зависимости. Уравнение регрессии описывает гипотетическую функциональную зависимость между условным средним значением результативного признака и значением признака – фактора (факторов), т.е. основную тенденцию зависимости.
Парная корреляционная зависимость описывается уравнением парной регрессии, множественная корреляционная зависимость – уравнением множественной регрессии.
Признак-результат в уравнении регрессии – это зависимая переменная (отклик, объясняемая переменная), а признак-фактор – независимая переменная (аргумент, объясняющая переменная).
Простейшим видом уравнения регрессии является уравнение парной линейной зависимости:
где y – зависимая переменная (признак-результат); x – независимая переменная (признак-фактор); и – параметры уравнения регрессии; - ошибка оценивания.
В качестве уравнения регрессии могут быть использованы различные математические функции. Частое практическое применение находят уравнения линейной зависимости, параболы, гиперболы, степной функции и др.
Как правило, анализ начинается с оценки линейной зависимости, поскольку результаты легко поддаются содержательной интерпретации. Выбор типа уравнения связи – достаточно ответственный этап анализа. В «докомпьютерную» эпоху эта процедура была сопряжена с определенными сложностями и требовала от аналитика знания свойств математических функций. В настоящее время на базе специализированных программ можно оперативно построить множество уравнений связи и на основе формальных критериев осуществить выбор лучшей модели (однако математическая грамотность аналитика не утратила своей актуальности).
Гипотезу о типе корреляционной зависимости можно выдвинуть по результатам построения поля корреляции (см. лекцию 6). Исходя из характера расположения точек на графике (координаты точек соответствуют значениям зависимой и независимой переменных), выявляется тенденция связи между признаками (показателями). Если линия регрессии проходит через все точки поля корреляции, то эта свидетельствует о функциональной связи. В практике социально-экономических исследований такую картину наблюдать не приходится, поскольку присутствует статистическая (корреляционная) зависимость. В условиях корреляционной зависимости при нанесении линии регрессии на диаграмму рассеивания наблюдается отклонение точек поля корреляции от линии регрессии, что демонстрирует, так называемые, остатки или ошибки оценивания (см. рисунок 7.1).
Наличие ошибки уравнения связано с тем, что:
§ не все факторы, влияющие на результат, учитываются в уравнении регрессии;
§ может быть неверно выбранаформа связи - уравнение регрессии;
§ не все факторы включены в уравнение.
Построить уравнение регрессии – означает рассчитать значения его параметров. Уравнение регрессии строится на основе фактических значений анализируемых признаков. Расчет параметров, как правило, выполняется с использованием метода наименьших квадратов (МНК).
Суть МНК состоит в том, что удается получить такие значения параметров уравнения, при которых минимизируется сумма квадратов отклонений теоретических значений признака-результата (рассчитанных на основе уравнения регрессии), от фактических его значений:
,
где - фактическое значение признака-результата у i-й единицы совокупности; - значение признака-результата у i-й единицы совокупности, полученное по уравнению регрессии ().
Т.о., решается задача на экстремум, то есть необходимо найти, при каких значениях параметров, функция S достигает минимума.
Проводя дифференцирование, приравнивая частные производные нулю:
, (7.3)
, (7.4)
где - среднее произведение значений фактора и результата; - среднее значение признака - фактора; - среднее значение признака -результата; - дисперсия признака-фактора.
Параметр в уравнении регрессии характеризует угол наклона линии регрессии на графике. Этот параметр называют коэффициентом регрессии и его величина характеризует, на сколько единиц своего измерения изменится признак-результат при изменении признака-фактора на единицу своего измерения. Знак при коэффициенте регрессии отражает направленность зависимости (прямая или обратная) и совпадает со знаком коэффициента корреляции (в условиях парной зависимости).
В рамках рассматриваемого примера, в программе STATISTICA рассчитаны параметры уравнения регрессии, описывающего зависимость между уровнем среднедушевых денежных доходов населения и величиной валового регионального продукта на душу населения в регионах России, см. таблицу 7.1.
Таблица 7.1 - Расчет и оценка параметров уравнения, описывающего зависимостьмежду уровнем среднедушевых денежных доходов населения и величиной валового регионального продукта на душу населения в регионах России, 2013 г.
В графе "В" таблицы содержатся значения параметров уравнения парной регрессии, следовательно, можно записать: = 13406,89 + 22,82 x.Данное уравнение описывает тенденцию связи между анализируемыми характеристиками. Параметр - это коэффициент регрессии. В данном случае он равен 22,82 и характеризует следующее: при увеличении ВРП на душу населения на 1 тыс.рублей среднедушевые денежные доходы в среднем возрастают (на что указывает знак "+") на 22,28 руб.
Параметр уравнения регрессии в социально-экономических исследованиях, как правило, содержательно не интерпретируется. Формально он отражает величину признака - результата при условии, что признак - фактор равен нулю. Параметр характеризует расположение линии регрессии на графике, см. рисунок 7.1.
Рисунок 7.1 - Поле корреляции и линия регрессии, отражающие зависимость уровня среднедушевых денежных доходов населения в регионах России и величины ВРП на душу населения
Значение параметра соответствует точке пересечения линии регрессии с осью Y, при X=0.
Построение уравнения регрессии сопровождается оценкой статистической значимости уравнения в целом и его параметров. Необходимость таких процедур связана с ограниченным объемом данных, что может препятствовать действию закона больших чисел и, следовательно, выявлению истинной тенденции во взаимосвязи анализируемых показателей. Кроме того, любую исследуемую совокупность можно рассматривать как выборку из генеральной совокупности, а характеристики, полученные в ходе анализа, как оценку генеральных параметров.
Оценка статистической значимости параметров и уравнения в целом – это обоснование возможности использования построенной модели связи для принятия управленческих решений и прогнозирования (моделирования).
Статистическая значимость уравнения регрессии в целом оценивается с использованием F-критерия Фишера , который представляет собой отношение факторной и остаточных дисперсий, рассчитанных на одну степень свободы:
где - факторная дисперсия признака - результата; k – число степеней свободы факторной дисперсии (число факторов в уравнении регрессии); - среднее значение зависимой переменной; - теоретическое (полученной по уравнению регрессии) значение зависимой переменной у i – й единицы совокупности; - остаточная дисперсии признака - результата; n – объем совокупности; n-k-1 – число степеней свободы остаточной дисперсии.
Величина F-критерия Фишера, согласно формуле, характеризует соотношение между факторной и остаточной дисперсиями зависимой переменной, демонстрируя, по существу, во сколько раз величина объясненной части вариации превышает необъясненную.
F-критерий Фишера табулирован, входом в таблицу является число степеней свободы факторной и остаточной дисперсий. Сравнение расчетного значения критерия с табличным (критическим) позволяет ответить на вопрос: статистически значима ли та часть вариации признака-результата, которую удается объяснить факторами, включенными в уравнение данного вида. Если , то уравнение регрессии признается статистически значимым и, соответственно, статистически значим и коэффициент детерминации. В противном случае (), уравнение – статистически незначимо, т.е. вариация учтенных в уравнении факторов не объясняет статистически значимой части вариации признака-результата, либо не верно выбрано уравнение связи.
Оценка статистической значимости параметров уравнения осуществляется на основе t-статистики , которая рассчитывается как отношение модуля параметров уравнения регрессии к их стандартным ошибкам ():
, где ; (7.6)
, где ; (7.7)
где - стандартные отклонения признака - фактора и признака - результата; - коэффициент детерминации.
В специализированных статистических программах расчет параметров всегда сопровождается расчетом значений их стандартных (среднеквадратических) ошибок и t-статистики (см. таблицу 7.1). Расчетное значение t-статистики сравнивается с табличным, если объем изучаемой совокупности менее 30 единиц (безусловно малая выборка), следует обратиться к таблице t- распределения Стьюдента, если объем совокупности большой, следует воспользоваться таблицей нормального распределения (интеграла вероятностей Лапласа). Параметр уравнения признается статистически значимым, если.
Оценка параметров на основе t-статистики, по существу, является проверкой нулевой гипотезы о равенстве генеральных параметров нулю (H 0: =0; H 0: =0;), то есть о статистически не значимой величине параметров уравнения регрессии. Уровень значимости гипотезы, как правило, принимается: = 0,05. Если расчетный уровень значимости меньше 0,05 , то нулевая гипотеза отвергается и принимается альтернативная - о статистической значимости параметра.
Продолжим рассмотрение примера. В таблице 7.1 в графе «B» приведены значения параметров, в графе Std.Err.ofB - величины стандартных ошибок параметров (), в графе t(77 – число степеней свободы) рассчитаны значения t - статистики с учетом числа степеней свободы. Для оценки статистической значимости параметров расчетные значения t - статистик необходимо сравнить с табличным значением. Заданному уровню значимости (0,05) в таблице нормального распределения соответствует t = 1,96. Поскольку 18,02, 10,84, т.е. , следует признать статистическую значимость полученных значений параметров, т.е. эти значения сформированы под влиянием не случайных факторов и отражают тенденцию связи между анализируемыми показателями.
Для оценки статистической значимости уравнения в целом обратимся к значению F-критерия Фишера (см. таблицу 7.1). Расчетное значение F-критерия = 117,51, табличное значение критерия, исходя из соответствующего числа степеней свободы (для факторной дисперсии d.f. =1, для остаточной дисперсииd.f. =77), равно 4,00 (см. приложение.....). Таким образом, , следовательно, уравнение регрессии в целом статистически значимо. В такой ситуации можно говорить и о статистической значимости величины коэффициента детерминации, т.е. вариация среднедушевых доходов населения в регионах России на 60 процентов может быть объяснена вариацией объемов валового регионального продукта на душу населения.
Проводя оценку статистической значимости уравнения регрессии и его параметров, можем получить различное сочетание результатов.
· Уравнение по F-критерию статистически значимо и все параметры уравнения по t-статистике тоже статистически значимы. Данное уравнение может быть использовано как для принятия управленческих решений (на какие факторы следует воздействовать, чтобы получить желаемый результат), так и для прогнозирования поведения признака-результата при тех или иных значениях факторов.
· По F-критерию уравнение статистически значимо, но незначимы параметры (параметр) уравнения. Уравнение может быть использовано для принятия управленческих решений (касающихся тех факторов, по которым получено подтверждение статистической значимости их влияния), но уравнение не может быть использовано для прогнозирования.
· Уравнение по F-критерию статистически незначимо. Уравнение не может быть использовано. Следует продолжить поиск значимых признаков-факторов или аналитической формы связи аргумента и отклика.
Если подтверждена статистическая значимость уравнения и его параметров, то может быть реализован, так называемый, точечный прогноз, т.е. получена оценка значения признака-результата (y) при тех или иных значениях фактора (x).
Совершенно очевидно, что прогнозное значение зависимой переменной, рассчитанное на основе уравнения связи, не будет совпадать с фактическим ее значением ().Графически эта ситуация подтверждается тем, что не все точки поля корреляции лежат на линии регрессии,лишь при функциональной связи линия регрессии пройдет через все точки диаграммы рассеивания. Наличие расхождений между фактическими и теоретическими значениями зависимой переменной связано, прежде всего, с самой сутью корреляционной зависимости:одновременно на результат воздействует множество факторов, из которых только часть может быть учтена в конкретном уравнении связи. Кроме того, может быть неверно выбрана форма связи результата и фактора (тип уравнения регрессии). В связи с этим возникает вопрос, насколько информативно построенное уравнение связи. На этот вопрос отвечают два показателя: коэффициент детерминации (о нем уже говорилось выше) и стандартная ошибка оценивания.
Разность между фактическими и теоретическими значениями зависимой переменной называют отклонениями или ошибками, или остатками . На основе этих величин рассчитывается остаточная дисперсия. Квадратный корень из остаточной дисперсии и является среднеквадратической (стандартной) ошибкой оценивания:
= (7.8)
Стандартная ошибка уравнения измеряется в тех же единицах, что и прогнозируемый показатель. Если ошибки уравнения подчиняются нормальному распределению (при больших объемах данных), то 95 процентов значений должны находиться от линии регрессии на расстоянии, не превышающем 2S (исходя из свойства нормального распределения - правила трех сигм). Величина стандартной ошибки оценивания используется при расчете доверительных интервалов при прогнозировании значения признака - результата для конкретной единицы совокупности.
В практических исследованиях часто возникает необходимость в прогнозе среднего значения признака - результата при том или ином значении признака - фактора. В этом случае в расчете доверительного интервала для среднего значения зависимой переменной()
учитывается величина средней ошибки:
(7.9)
Использование разных величин ошибок объясняется тем, что изменчивость уровней показателей у конкретных единиц совокупности гораздо выше, чем изменчивость среднего значения, следовательно, ошибка прогноза среднего значения меньше.
Доверительный интервал прогноза среднего значения зависимой переменной:
, (7.10)
где - предельная ошибка оценки (см. теорию выборки); t – коэффициент доверия, значение которого находится в соответствующей таблице, исходя из принятого исследователем уровня вероятности (числа степеней свободы) (см. теорию выборки).
Доверительный интервал для прогнозируемого значения признака-результата может быть рассчитан и с учетом поправки на смещение (сдвиг) линии регрессии. Величина поправочного коэффициента определяется:
(7.11)
где - значение признака-фактора, исходя из которого, прогнозируется значение признака-результата.
Отсюда следует, что чем больше значение отличается от среднего значения признака-фактора, тем больше величина корректирующего коэффициента, тем больше ошибка прогноза. С учетом данного коэффициента доверительный интервал прогноза будет рассчитываться:
На точность прогноза на основе уравнения регрессии могут влиять разные причины. Прежде всего, следует учитывать, что оценка качества уравнения и его параметров проводится, исходя из предположения о нормальном распределении случайных остатков. Нарушение этого допущения может быть связано с наличием резко отличающихся значений в данных, с неравномерной вариацией, с наличием нелинейной зависимости. В этом случае качество прогноза снижается. Второй момент, о котором следует помнить, - значения факторов, учитываемые при прогнозировании результата, не должны выходить за пределы размаха вариации данных, на основе которых построено уравнение.
©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2018-01-08
Проверить значимость параметров уравнения регрессии можно, используя t-статистику .
Задание:
По группе предприятий, выпускающих один и тот же вид продукции, рассматриваются функции издержек:
y = α + βx;
y = α x β ;
y = α β x ;
y = α + β / x;
где y – затраты на производство, тыс. д. е.
x – выпуск продукции, тыс. ед.
Требуется:
1. Построить уравнения парной регрессии y от x:
- линейное;
- степенное;
- показательное;
- равносторонней гиперболы.
3. Оценить статистическую значимость уравнения регрессии в целом.
4. Оценить статистическую значимость параметров регрессии и корреляции.
5. Выполнить прогноз затрат на производство при прогнозном выпуске продукции, составляющем 195 % от среднего уровня.
6. Оценить точность прогноза, рассчитать ошибку прогноза и его доверительный интервал.
7. Оценить модель через среднюю ошибку аппроксимации.
Решение :
1. Уравнение имеет вид y = α + βx
1. Параметры уравнения регрессии.
Средние значения
Дисперсия
Среднеквадратическое отклонение
Коэффициент корреляции
Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии
Коэффициент детерминации
R 2 = 0.94 2 = 0.89, т.е. в 88.9774 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая
x | y | x 2 | y 2 | x ∙ y | y(x) | (y-y cp) 2 | (y-y(x)) 2 | (x-x p) 2 |
78 | 133 | 6084 | 17689 | 10374 | 142.16 | 115.98 | 83.83 | 1 |
82 | 148 | 6724 | 21904 | 12136 | 148.61 | 17.9 | 0.37 | 9 |
87 | 134 | 7569 | 17956 | 11658 | 156.68 | 95.44 | 514.26 | 64 |
79 | 154 | 6241 | 23716 | 12166 | 143.77 | 104.67 | 104.67 | 0 |
89 | 162 | 7921 | 26244 | 14418 | 159.9 | 332.36 | 4.39 | 100 |
106 | 195 | 11236 | 38025 | 20670 | 187.33 | 2624.59 | 58.76 | 729 |
67 | 139 | 4489 | 19321 | 9313 | 124.41 | 22.75 | 212.95 | 144 |
88 | 158 | 7744 | 24964 | 13904 | 158.29 | 202.51 | 0.08 | 81 |
73 | 152 | 5329 | 23104 | 11096 | 134.09 | 67.75 | 320.84 | 36 |
87 | 162 | 7569 | 26244 | 14094 | 156.68 | 332.36 | 28.33 | 64 |
76 | 159 | 5776 | 25281 | 12084 | 138.93 | 231.98 | 402.86 | 9 |
115 | 173 | 13225 | 29929 | 19895 | 201.86 | 854.44 | 832.66 | 1296 |
0 | 0 | 0 | 16.3 | 20669.59 | 265.73 | 6241 | ||
1027 | 1869 | 89907 | 294377 | 161808 | 1869 | 25672.31 | 2829.74 | 8774 |
Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
... ... ...
2. Оценка параметров уравнения регрессии
Значимость коэффициента корреляции
По таблице Стьюдента находим Tтабл
T табл (n-m-1;α/2) = (11;0.05/2) = 1.796
Поскольку Tнабл > Tтабл, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически - значим.
Анализ точности определения оценок коэффициентов регрессии
S a = 0.1712
Доверительные интервалы для зависимой переменной
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-20.41;56.24)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика
Статистическая значимость коэффициента регрессии a подтверждается
Статистическая значимость коэффициента регрессии b не подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(a - t S a ; a + t S a)
(1.306;1.921)
(b - t b S b ; b + t b S b)
(-9.2733;41.876)
где t = 1.796
2) F-статистики
Fkp = 4.84
Поскольку F > Fkp, то коэффициент детерминации статистически значим
Оценка значимости параметров уравнения регрессии
Оценка значимости параметров уравнения линейной регрессии производится с помощью критерия Стьюдента:
если t расч. > t кр, то принимается основная гипотеза (H o ), свидетельствующая о статистической значимости параметров регрессии;
если t расч. < t кр, то принимается альтернативная гипотеза (H 1 ), свидетельствующая о статистической незначимости параметров регрессии.
где m a , m b – стандартные ошибки параметров a и b:
(2.19)
(2.20)
Критическое (табличное) значение критерия находится с помощью статистических таблиц распределения Стьюдента (приложение Б) или по таблицам Excel (раздел мастера функций «Статистические»):
t кр = СТЬЮДРАСПОБР(α=1-P; k=n-2 ), (2.21)
где k=n-2 также представляет собой число степенейсвободы.
Оценка статистической значимости может быть применена и к линейному коэффициенту корреляции
где m r – стандартная ошибка определения значений коэффициента корреляции r yx
(2.23)
Ниже представлены варианты заданий для практических и лабораторных работ по тематике второго раздела.
Вопросы для самопроверки по 2 разделу
1. Укажите основные составляющие эконометрической модели и их сущность.
2. Основное содержание этапов эконометрического исследования.
3. Сущность подходов по определению параметров линейной регрессии.
4. Сущность и особенность применения метода наименьших квадратов при определении параметров уравнения регрессии.
5. Какие показатели используются для оценки тесноты взаимосвязи исследуемых факторов?
6. Сущность линейного коэффициента корреляции.
7. Сущность коэффициента детерминации.
8. Сущность и основные особенности процедур оценки адекватности (статистической значимости) регрессионных моделей.
9. Оценка адекватности линейных регрессионных моделей по коэффициенту аппроксимации.
10. Сущность подхода оценки адекватности регрессионных моделей по критерию Фишера. Определение эмпирических и критических значений критерия.
11. Сущность понятия «дисперсионный анализ» применительно к эконометрическим исследованиям.
12. Сущность и основные особенности процедуры оценки значимости параметров линейного уравнения регрессии.
13. Особенности применения распределения Стьюдента при оценке значимости параметров линейного уравнения регрессии.
14. В чем состоит задача прогноза единичных значений исследуемого социально-экономического явления?
1. Построить поле корреляции и сформулировать предположение о форме уравнения взаимосвязи исследуемых факторов;
2. Записать основные уравнения метода наименьших квадратов, произвести необходимые преобразования, составить таблицу для промежуточных расчетов и определить параметры линейного уравнения регрессии;
3. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.
4. Провести анализ результатов, сформулировать выводы и рекомендации.
1. Расчет значения линейного коэффициента корреляции;
2. Построение таблицы дисперсионного анализа;
3. Оценка коэффициента детерминации;
4. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.
5. Провести анализ результатов, сформулировать выводы и рекомендации.
4. Провести общую оценку адекватности выбранного уравнения регрессии;
1. Оценка адекватности уравнения по значениям коэффициента аппроксимации;
2. Оценка адекватности уравнения по значениям коэффициента детерминации;
3. Оценка адекватности уравнения по критерию Фишера;
4. Провести общую оценку адекватности параметров уравнения регрессии;
5. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.
6. Провести анализ результатов, сформулировать выводы и рекомендации.
1. Использование стандартных процедур мастера функций электронных таблиц Excel (из разделов «Математические» и «Статистические»);
2. Подготовка данных и особенности применения функции «ЛИНЕЙН»;
3. Подготовка данных и особенности применения функции «ПРЕДСКАЗ».
1. Использование стандартных процедур пакета анализа данных электронных таблиц Excel;
2. Подготовка данных и особенности применения процедуры «РЕГРЕССИЯ»;
3. Интерпретация и обобщение данных таблицы регрессионного анализа;
4. Интерпретация и обобщение данных таблицы дисперсионного анализа;
5. Интерпретация и обобщение данных таблицы оценки значимости параметров уравнения регрессии;
При выполнении лабораторной работы по данным одного из вариантов необходимо выполнить следующие частные задания:
1. Осуществить выбор формы уравнения взаимосвязи исследуемых факторов;
2. Определить параметры уравнения регрессии;
3. Провести оценку тесноты взаимосвязи исследуемых факторов;
4. Провести оценку адекватности выбранного уравнения регрессии;
5. Провести оценку статистической значимости параметров уравнения регрессии.
6. Осуществить проверку правильности проведенных вычислений с помощью стандартных процедур и функций электронных таблиц Excel.
7. Провести анализ результатов, сформулировать выводы и рекомендации.
Задания для практических и лабораторных работ по теме «Парная линейная регрессия и корреляция в эконометрических исследованиях».
Вариант 1 | Вариант 2 | Вариант 3 | Вариант 4 | Вариант 5 | |||||
x | y | x | y | x | y | x | y | x | y |
Вариант 6 | Вариант 7 | Вариант 8 | Вариант 9 | Вариант 10 | |||||
x | y | x | y | x | y | x | y | x | y |