Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей» icon

Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей»




Скачати 185.82 Kb.
НазваСтатья на тему: «исследование метода повышения точности регрессионных прогнзных моделей»
Дата21.06.2012
Розмір185.82 Kb.
ТипСтатья

СТАТЬЯ НА ТЕМУ: «ИССЛЕДОВАНИЕ МЕТОДА ПОВЫШЕНИЯ ТОЧНОСТИ РЕГРЕССИОННЫХ ПРОГНЗНЫХ МОДЕЛЕЙ»


Щербак И.В.

ДонНТУ, Кафедра ПМиИ

scherbakira@mail.ru


Abstract

Scherbak Irina Viktorovna, magister of FCT&I of DNTU with the specification of economical cybernetics. Title of public: ”Investigation of Increase Accuracy Regression Prediction Models Methods”. The method that allows to get rid of series distribution abnormal points is considered in the article. This method is called as method Irvin. The ratio of residual absolute value between a consequent and previous series significance level and series mean-square deviation is found here. Given ratio is compared to some threshold level (tabulated point). If the significance level is less than threshold value, the series doesn’t contain abnormal points.


Введение

Статистическое прогнозирование широко используется для повышения эффективности планирования и управления предприятиями. При этом наиболее часто используются регрессионные модели и модели на основе экстраполяции трендов.

Существует метод, который позволяет избавиться от аномальных точек ряда распределения. Этот метод называется методом Ирвина. Находится отношение модуля разностей соседние уровни ряда и среднеквадратического отклонения ряда и сравнивается с некоторым пороговым уровнем (табличным значением). Если статистический метод меньше порогового значения, то ряд не содержит аномальных точек.

Такой подход используется при решении задач экономического прогнозирования с использованием прогнозной модели на основе экстраполяции тренда путем удаления аномальных уровней временного ряда. При решении задач прогнозирования с помощью регрессионных прогнозных моделей отдельные статистические данные по которым строятся регрессионные модели являются аномальными или по ним не выполняются условия однородности статистических данных, что приводит к ухудшению точности экономических прогнозов. При этом надежные данные регрессионной прогнозной модели концентрируются в виде ядра, а не надежные по разным причинам располагаются вдалеке от этого ядра.

Если предположить, что распределение случайных значений и относительно их уравнений регрессий описываются симметричными законами плотностей распределения вероятностей, то можно реализовать идею, которая заключается в следующем.

Если предположить, что случайные величины подчинены нормальным законам распределения, то геометрическое место точек исходных данных представляет собой некий эллипс, большая ось совпадает с регрессионным уравнением, а малая перпендикулярна ему.

Изменяя параметры эллипса, которые определяются величиной коэффициента взаимной корреляции и дисперсий случайных величин и можно построить концентрированное семейство эллипсов. При этом вероятности попадания точек в эллипс будет зависеть от параметров самого эллипса.

Цель исследований:

  • определить для произвольных исходных статистических данных регрессионные модели.

  • определить параметры таких эллипсов, которые обеспечивают попадание исходных данных в него, чтобы аномальные и неоднородные исходные данные оказались вне данного эллипса.

При этом строится новое регрессионное уравнение и сравниваются, при одинаковом прогнозном, величины доверительных интервалов прогноза. Естественно, что доверительная вероятность прогнозов должна быть меньше, чем вероятность попадания данных в эллипс.

Выигрыш данного метода определяется в случае, когда сумма смещения нового регрессионного уравнения при прогнозного и величины доверительного интервала будет меньше, чем величина доверительного интервала исходного регрессионного уравнения, полученного классическим методом.

В данной работе решалась обратная задача: максимально возможный объем аномальной статистики, который мы отбрасываем для получения максимального выигрыша в точности прогнозирования.

^ 1 Парная регрессия


1.1 Оценивание параметров

Рассмотрим график (рис. 1), на котором показаны результаты наблюдений значений переменных y и x. В нашем конкретном случае последние характеризуют, скажем производительность труда и фондовооруженность на однородных предприятиях какой либо отрасли. Через область, занимаемую точками на графике проведена прямая y = a + bx. Отклонение ( возмущение ) какой – либо точки с координатами yі , xі составит величину eі:


eі = yі - = y – ( a + bxi ), (1)

где yі – фактическое,

– расчетное значение зависимой переменной y.



Рисунок 1 – Линейное уравнение регрессии


Как видно из формулы (1), величина eі (ее часто называют остаточным членом ) есть функция параметров a и b. Точно так же функцией этих параметров является обобщенный показатель рассеяния точек вокруг прямой, а именно . Стремление найти прямую, которая наилучшим образом описывала бы расположение точек в пространстве переменных y и x, или, иначе говоря, прямую, к которой в целом наиболее тесно примыкали бы отдельные точки, трансформируется в методе наименьших квадратов в критерий, согласно которому параметры a и b должны быть подобраны так, чтобы сумма квадратов величин eі была минимальной, т.е. .

Как известно, необходимым условием существования минимума функции в точках a и b является равенство нулю частных производных по неизвестным параметрам a и b. Итак найдем для функции





частные производные и приравняем их нулю:


. (2)


Преобразовав систему (4), получим стандартную форму нормальных уравнений.


. (3)


Таким образом, определив по наблюдениям суммы , и и решив систему (3) относительно неизвестных a и b, получим оценки a и b, отвечающие условию (2) и обладающие свойствами несмещенности, состоятельности и эффективности, если независимая переменная не содержит ошибок.

Разделим первое уравнение системы (3) на n, получим


. (4)


Таким образом, метод наименьших квадратов дает такие оценки a и b, при которых найденная прямая проходит через точку с координатами и , т.е. точку, соответствующую средним обеих переменных.

Значения переменных xі и yі могут быть измерены в отклонениях от средней, т.е. как . Обозначим эти разности как соответственно. Начало координат при этом переместится в точку , а система нормальных уравнений упростится, так как равны нулю. В этом случае решение второго уравнения системы (3) относительно b дает


(5)


а из уравнения (4) получим


(6)

^ 1.2 Коэффициент корреляции

Уравнение регрессии характеризует взаимосвязь между переменными x и y в том смысле, что показывает, как изменяется величина y в зависимости от величины x. Однако в самом уравнении регрессии с оцененными параметрами нет указания на то, как близко находятся фактические наблюдения от расчетных (полученных по регрессии), иначе говоря, нет указания на степень тесноты связи между переменными. Поэтому оценка параметров регрессии обычно сопровождается расчетом такой дополнительной характеристики, как коэффициент корреляции, который представляет собой эмпирическую меру линейной зависимости между x и y.

Коэффициент корреляции для некоторой выборки значений x и y определяется по формуле

. (7)

Величина r лежит между -1 и 1. Чем выше значение r, тем теснее связь между переменными и тем с большим основанием найденная взаимосвязь может быть использована для прогнозирования. Коэффициент корреляции также может рассматриваться как один из критериев качества подбора функции. При этом он адекватен критерию, лежащему в основе МНК.


^ 1.3 Ошибки параметров в уравнении регрессии

Итак, мы оценили параметры a и b и получили регрессию, на основе которой можно предсказывать значения y в зависимости от значений x. Естественно полагать, что действительные значения зависимой переменной не будут совпадать с расчетными (прогнозными), так как сама линия регрессии описывает взаимосвязь лишь в среднем, в общем. Отдельные наблюдения рассеяны вокруг нее. Таким образом, первым и наиболее очевидным фактором, во многом определяющим надежность получаемых по уравнению регрессии прогностических оценок, является рассеяние наблюдений вокруг линии регрессии. В качестве меры рассеяния примем такую общераспространенную характеристику, как дисперсия. Для ее определения найдем сумму квадратов отклонений фактических наблюдений от линии регрессии с параметрами a и b, т.е. Из рис.1 легко установить, что величину можно найти как

,


и - отклонения от соответствующих средних.

Отсюда:




Последний член этого выражения можно переписать, используя соотношение (5), следующим образом:


.


Теперь можно вычислить, минуя определение :


. (8)


Значение величины дает возможность определить оценку дисперсии отклонений от регрессии. Эта оценка равна сумме квадратов отклонений, деленной на число степеней свободы.

. (9)


Величина является выборочной оценкой дисперсии случайных членов , содержащихся в теоретической модели (см. формулу 2).


2 Доверительные интервалы и области


^ 2.1 Доверительные интервалы

Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения фактора, называют точечным прогнозом. Вероятность точной реализации такого прогноза очень мала.

Рассмотрим теперь метод определения доверительных границ для прогнозного значения y, т.е. тех границ, в пределах которых с заданной доверительной вероятностью будет находится значение y. В силу того, что оценивание параметров осуществляется по выборочным данным, оценки a и b содержат некоторую погрешность. Погрешность в значении a приводит к вертикальному сдвигу линии регрессии, а колеблемость оценки b приводит к «покачиванию» линии регрессии. При одной и той же оценке a линия регрессии будет поворачиваться вокруг оси с координатами .

Необходимо определить значение средней ошибки прогноза или доверительного интервала прогноза с достаточно большей вероятностью. Средняя ошибка положения линии регрессии в генеральной совокупности при значении факторного признака, равном , вычисляется для линии регрессии по формуле (10):


, (10)


где - средняя ошибка положения линии регрессии в генеральной совокупности при ;

n – объем выборки;

- ожидаемое значение фактора;

- оценка среднего квадратического отклонения результативного признака от линии регрессии в генеральной совокупности с учетом степеней свободы вариации.

Зная дисперсию показателя , легко определить доверительные границы для него. Так для расчетного значения доверительные границы для прогноза равны:

, (11)

где - статистика Стьюдента.




^ 2.2 Доверительные области

Общий вид плотности двумерного нормального распределения случайной величины (СВ) X и Y:

, (12)


где - детерминант матрицы коэффициентов уравнения плотности распределения СВ.

и .

Выражение

(13)


представляет собой эллипс с центром в точке O(x0,y0). Двумерное нормальное распределение называют иногда эллиптическим. На эллипсах вида (13) плотность нормального распределения постоянна. Поэтому они называются эллипсами равных вероятностей.

Эллипс такого типа используется для обозначения доверительного интервала для предсказанных значений единичного наблюдения (предсказанного интервала). Такие двумерные доверительные или контрольные границы используются, например, на многомерных контрольных картах при промышленном контроле качества (рис. 2).




Рисунок 2 – Эллипс – геометрическое место исходных данных

Параметры этого эллипса вычисляются в предположении о том, что две переменные имеют двумерное нормальное распределение. Ориентация эллипса определяется знаком линейной корреляции между двумя переменными (более длинная ось эллипса накладывается на линию регрессии). Вероятность того, что новые значения пары переменных (X,Y) попадут в область, ограниченную эллипсом, равна значению коэффициента, задающего эллипс (например, 95%).

Эллипс размаха имеет фиксированный размер, определяемый следующим образом: длина его горизонтальной и вертикальной проекций на оси X и Y (соответственно) равна среднему значению величины (Размах * I), где среднее и размах относятся к переменной X или Y, а I - текущее значение коэффициента.

Вероятность того, что точка со случайными координатами (x,y) попадет в эллипс равна:

. (14)


Если значение k – число доверительных границ – не мало (не равно, скажем, 2 или 3), то такую область нелегко построить и довольно трудно интерпретировать. Поэтому бывает достаточно разумного описания доверительной области посредством изолиний или изоповерхностей. Например: если k=3, то доверительную область изобразить в двух измерениях в виде контурной карты (рис. 3).


Y


X


Рисунок 3 – Контурная карта доверительной области


^ Исследование метода

Для генерации исходных данных предусмотрено создание программного имитатора. Разработка программы имитатора включает генерацию случайных величин различных по размеру выборок.

Алгоритм программы имитатора реализует следующие зависимости:

  1. Независимая случайная величина для равномерного закона распределения:


, (15)


где , N – объем выборки ;

– случайное число, равномерно распределенное на отрезке [0,?], возвращаемое при обращении стандартных функций выбранного языка программирования (0

  1. Зависимая случайная величина определяется аналогично независимой.

Для исследований в работе предусмотрен генератор трех выборок по каждой из трех пар случайных величин со следующими размерами: N=10, N= 30, N=50.


3 Анализ полученных данных

Анализ данных проведем в пакете MICROSOFT EXCEL и STATISTICA в модуле Multiple Regression.

Метод вычисления доверительных эллипсов в пакете STATISTICA. При использовании 2М диаграмм рассеяния пользователь может задать вычисления доверительного эллипса для выбранного уровня доверия альфа. Этот эллипс ограничивает область, в которую с заданной вероятностью попадает новое наблюдение, в предположении, что наблюдение имеет нормальное распределение с параметрами, оцененными по данным, представленным на диаграмме рассеяния. Чтобы построить эллипс, выберите значение Нормальный в поле Эллипс и задайте коэффициент доверия.

Координаты эллипса вычисляются по формуле:

(16)


где: - число переменных; например, =2 для 2М диаграммы рассеяния;

- число наблюдений;

- вектор координат (пар координат, если =2);

- вектор средних;

- обратная ковариационная матрица для p переменных;

- значение F, для данных альфа, p, n-p.

Заметим, если число наблюдений мало, то доверительный интервал может быть очень большим, превышающим область, показанную на графике для выбранного по умолчанию масштаба осей. Поэтому в некоторых случаях (для малых n) вы можете не увидеть границу доверительного эллипса (в таком случае измените масштаб осей). Этот эллипс можно также построить из диалогового окна построения 2М графиков. Построим уравнение парной регрессии, доверительную область и определим ее параметры. С доверительной вероятностью 0,85 точка с координатами (7,65;8,61) не попадает в доверительную область (рис.4). Эта точка «аномальная». Удалим ее с помощью метода «Кисти». После удаления «аномальной» точки мы получили новое уравнение регрессии. Доверительная вероятность для построения доверительной области для «новой» парной регрессии после удаления одной «аномальной» точки не изменилась. Аналогично исследуем регрессионные модели размерностью N=10, N=30, N=50 при удалении от одной до пяти «аномальных» точек в зависимости от размерности выборки.




Рисунок 4 – Выделение «аномальной» точки





Рисунок 5 – Выделение «аномальной» точки

По исходным и полученным данным былы определены доверительные интервалы и коэффициенты A, L:

(17)

(18)


Изобразим на графике зависимость коэффициентов A и L для исследуемых независимых случайных величин (рис. 6 – 8) для = 10; (рис. 9 – 11) для = 30; (рис. 12 – 14) для = 50.



Рисунок 6 – Зависимость коэффициентов A и L для = 10



Рисунок 7 – Зависимость коэффициентов A и L для = 10



Рисунок 8 – Зависимость коэффициентов A и L для = 10




Рисунок 9 – Зависимость коэффициентов A и L для = 30



Рисунок 10 – Зависимость коэффициентов A и L для = 30



Рисунок 11 – Зависимость коэффициентов A и L для = 30



Рисунок 12 – Зависимость коэффициентов A и L для = 50



Рисунок 13 – Зависимость коэффициентов A и L для = 50



Рисунок 14 – Зависимость коэффициентов A и L для = 50

По графикам определим оптимальное количество удаленных точек для повышения точности прогноза результаты анализа сведем в таблицу 1. В таблице указаны независимые случайные величины размерностью N=10, N=30, N=50 и их оптимальный процент аномальных точек. В итоге определили математическое ожидание оптимального процента аномальных точек для каждого объема выборки.

Таблица 1 Определение оптимального процента аномальных точек

N

10

30

50

(X1,Y1)

10,00%

6,67%

6,00%

(X2,Y2)

20,00%

10,00%

10,00%

(X3,Y3)

30,00%

13,33%

10,00%

Мат.ожидание

20,00%

10,00%

8,67%


В итоге определили математическое ожидание оптимального процента аномальных точек для каждого объема выборки.


Заключение

В данной работе в качестве модели регрессионных данных использовали уравнение парной линейной регрессии. Для каждого уравнения построили эллипс - доверительную границу - и удалили аномальные точки, т.е. точки не принадлежавшие доверительной области эллипса. Получили следующие результаты, выборочная оценка дисперсии случайных членов , содержащихся в теоретической модели при удалении одной или двух аномальных точек уменьшалась, а при удалении трех и более точек незначительно увеличивалась независимо от объема выборки.
   Исследование метода повышения точности регрессионных прогнозных моделей позволило найти оптимальное количество удаленных аномальных точек – 20% для , 10% для и 8,67% для объема выборки, чтобы свести к минимуму выборочную оценку дисперсии случайных членов, содержащихся в теоретической модели. Для проведения дальнейших исследований в данной предметной области можно повысить уровень "выигрыша" при прогнозировании в области экономики.


Список литературы


  1. Себер Дж. Линейный регрессионный анализ.Пер.с англ. В.П. Носко – М.: Издательство «Мир», 1980.

  2. Справочник по вероятностным расчетам – М., Воениздат, 1970.

  3. Четыркин Е.М. Статистические методы прогнозирования. Изд. 2-е, перераб. и доп. – М., «Статистика», 1997.

  4. Шмойлова Р. А. Теория статистики – М.: Финансы и статистика, 2000.

Схожі:

Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей» iconИспользование метода робастного вписывания ransac для повышения точности оценивания дисперсии сложных помех

Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей» iconХронической сердечной недостаточности п. Г. Кравчун*; Ю. Н. Мозговая*; И. Д. Рачинский**
ФК. Построение регрессионных моделей фк хсн производилось с учетом параметров внутрисердечной гемодинамики, сывороточных уровней...
Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей» iconСписок науково-методичних праць
Сборник трудов нтк «Структурные методы повышения точности измерительных устройств», Житомир, 1972
Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей» iconСпециальный курс повышения квалификации на тему: «Цифровое телевидение. Технологии, услуги, решения»

Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей» iconСтатья из журнала «Кокс и химия»
Перед такими системами ставится задача повышения экономической ответственности за конечные результаты работы, лучшее использование...
Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей» iconТ. Д. Шубейкина Преображение живой клетки знак новой эры Статья
Статья опубликована в «Вестнике» Харьковского национального университета имени В. Н. Каразина, №1043, С. 73-85
Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей» iconДегтярев Ю. И. Исследование операций. М.: Высшая школа, 1986. Зайченко Ю. П. Исследование операций
Вентцель Е. С. Исследование операций: Задачи,принципы,методология. М.: Наука, 1980
Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей» iconДегтярев Ю. И. Исследование операций. М.: Высшая школа, 1986. Зайченко Ю. П. Исследование операций
Вентцель Е. С. Исследование операций: Задачи, принципы, методология. М.: Наука, 1980
Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей» iconСтатья посвящена вопросам повышения стойкости стопоров-моноблоков промежуточных ковшей мнлз
Выполненного сравнительного анализа различных существующих конструкций, предложено новое техническое решение, обеспечивающее реализацию...
Статья на тему: «исследование метода повышения точности регрессионных прогнзных моделей» iconК вопросу о необходимости совместного использования кассового метода и метода начисления при формировании системы учетной информации
К вопросу о необходимости совместного использования кассового метода и метода начисления при формировании системы
Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©zavantag.com 2000-2013
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи