Міського господарства icon

Міського господарства




НазваМіського господарства
Сторінка1/2
Дата25.06.2012
Розмір0.63 Mb.
ТипДокументи
  1   2

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ


ХАРКІВСЬКА НАЦІОНАЛЬНА АКАДЕМІЯ

МІСЬКОГО ГОСПОДАРСТВА




Методичні вказівки


Використання пакету програм “Statistica” в економетричних дослідженнях”

(для студентів 3 курсу денної форми навчання

спец. 6.050200 “Менеджмент організацій”)


Х


арків – ХНАМГ – 2007


М



етодичні вказівки “Використання пакету програм “Statistica” в економетричних дослідженнях” (для студентів 3 курсу денної форми навчання, спец. 6.050200 “Менеджмент організацій”). Укл.: Мамонов К.А., Скоков Б.Г. – Харків: ХНАМГ, 2007. - 51 с.


Укладач: К.А. Мамонов, Б.Г. Скоков

Рецензент: В.В. Димченко


Рекомендовано кафедрою обліку і аудиту,

протокол № від р.




Зміст


1. Загальні положення…………………………………………………

4

2. Збір даних для проведення економетричних досліджень з використанням програмних пакетів «Statistica»…………………….


6

3. Робота з пакетом програм «Statistica»……………………………..

8

4. Використання пакету програм «Statistica» для вирішення конкретних завдань……………………………………………………


26

5. Розробка економетричних моделей, використовуючи пакет програм «Statistica»……………………………………………………


31

Список використаної літератури……………………………………..

46




















































  1. ^ Загальні положення


Останнім часом спостерігається зростання інтересу до використання пакетів програм «Statistica». Вони знаходять успішне використання в самих різних галузях – бізнесі, медицині, техніці, геології, фізиці. Ці пакети ввійшли в практику тих сфер, де потрібно вирішувати завдання прогнозування, класифікації або управління, оскільки їх використають в будь-якій ситуації, коли є зв’язок між змінними.

Statistica є лідером серед програм статистичної обробки даних. Слід зазначати, що більш ніж 1 млн. зареєстрованих користувачів використовують пакети програм «Statistica». Вона є найбільш динамічно розвиненим пакетом на ринку статистичного програмного забезпечення.

В системі Statistica є такі інструментарії як ймовірносний калькулятор, використовувати який досить просто. За його допомогою можна вирішувати досить складні економічні і управлінські завдання.

Розробником пакету програм «Statistica» є фірма StatSoft, Inc. (США). Перша її версія вийшла в 1991 р., яка представляла собою новий напрямок в розвитку статистичного програмного забезпечення. В ній реалізований так званий графічно-орієнтований підхід до аналізу даних.

Сутність підходу полягає в тому, щоб отримати всебічне візуальне бачення даних на всіх етапах статистичної обробки і на основі цього аналізу здійснювати управлінські дії.

В процесі економетричних досліджень здійснюють пошук причинно-наслідкових зв’язків між змінними, їх прогнозування, розробка механізмів управління економічними процесами. Саме для вирішення цих завдань можуть бути широко використані програмні пакети «Statistica». Вони дають змогу спростити процес пошуку причинно-наслідкових зв’язків, розробки екнометричних моделей і прогнозів, розрахунку статистичних параметрів, які підтверджують адекватність моделей і точність прогнозів.

Програмні пакети «Statistica» по своїй природі представляють собою потужний метод моделювання, який дозволяє встановлювати досить складні залежності. Протягом багатьох років в якості основного метода в більшості сферах використовувалося лінійне моделювання, оскільки для нього розроблено процедури оптимізації. Там, де лінійна апроксимація незадовільна й лінійні моделі працюють «проблемно», а таких задач досить багато, основним інструментом стають саме програмні пакети «Statistica». Крім того, ці пакети справляються з «прокляттям розмірності», яке не дозволяє моделювати лінійні залежності у випадку значної кількості змінних.

Використання програмних пакетів «Statistica» запропоновано студентам 3-го курсу спеціальності «Менеджмент організацій» для вирішення конкретних проблем моделювання економічних процесів. Студенти ознайомляться з основними етапами використання інструментарію «Statistica» для вирішення управлінських задач.



  1. ^ Збір даних для проведення економетричних досліджень з використанням програмних пакетів «Statistica»


Для проведення економетричних досліджень потрібно здійснити пошук статистичних даних. Дані представляють собою ряд спостережень, для яких вказано значення вхідних і вихідних даних. Перше питання, яке потрібно вирішити, - які змінні використовувати і скільки (і яких) спостережень зібрати.

Вибір змінних здійснюють інтуїтивно. Він може базуватися на досвіді в предметній області, що допоможе вибрати важливі змінні. При роботі з пакетом програм «Statistica», можна вибрати довільно змінні і відмінити минулий вибір; крім того, система «Statistica» може сама дослідним шляхом вибирати потрібні входи. Для початку має сенс включити всі змінні, які, на думку дослідника, можуть впливати на результат, а на наступних етапах зменшити цю вибірку.

Пакети програм «Statistica» можуть працювати із числовими даними, які знаходяться у визначеному діапазоні. Це створює проблеми в тих випадках, коли дані мають нестандартний масштаб, включають пропущені значення, або є нечисловими. В пакеті програм «Statistica» є інструментарій, який дозволяє вирішити ці труднощі. Числові дані масштабуються в дослідженій базі даних, а пропущені значення можна замінити середніми значеннями.

Більш складним завданням є робота з даними нечислового характеру. Як правило, нечислові дані представлені у вигляді змінних типа Стать – Gender = {Чоловік – Male, Жінка - Female}. Змінні з номінальними значеннями можна представити в числовому вигляді, і в системі «Statistica» є інструментарій для роботи з такими даними. Проте цей пакет програм не дає позитивних результатів при роботі з номінальними змінними, які можуть приймати багато різних значень.

У таких випадках нечислові дані можна трансформувати в числові або визначати їх як незначущими. Значення часу, наприклад, можна трансформувати в числові значення, відраховуючи із них початкову дату (час).

Питання про те, скільки спостережень потрібно для здійснення досліджень є досить складним. Відомо декілька евристичних правил, які вказують кількість необхідних спостережень пов’язуючи з розмірами вибірки. Найбільш простим правилом є те, що кількість спостережень повинна бути в десять разів більше кількості змінних. Слід відзначити, що кількість спостережень залежить також від складності відображених зв’язків.

Таким чином, необхідно вибирати такі змінні, які можливо впливатимуть на результат. З числовими і номінальними змінними в пакеті програм «Statistica» можна працювати безпосередньо. Змінні інших типів необхідно трансформувати або об’явити незначущими. Для аналізу необхідно мати декілька сотень або тисяч спостережень; чим більше в завданні змінних, тим більше необхідно мати спостережень.

Збір даних і їх обробка можуть бути ускладнені наступними обставинами:

  • Прокляття розмірності – кожний додатковий елемент (змінна) – це нова розмірність в просторі даних. З цієї точки зору стає зрозумілим наступне: якщо досить плотно “заселити” простір і “побачити” структуру даних, необхідно мати досить багато точок. Необхідна кількість точок миттєво збільшується із збільшенням розмірності вибірки. Більшість типів пакетів програм «Statistica» в меншому ступені страждають від прокляття розмірності, чим інші методи, оскільки вони можуть слідити за проекціями участків багатовимірного простору в просторі малої розмірності. Проте, прокляття розмірності залишається більш складною проблемою, і якість роботи пакету програм можна значно поліпшити, виключив непотрібні змінні.

  • Внутрішні залежності між змінними – між незалежними змінними можуть бути сильні зв’язки. Тому необхідно дослідити і встановити кількісну силу зв’язку між змінними.

  • Багато змінних – в деяких випадках буває так, що одна і таж інформація в більшому або меншому ступені повторюється в різних змінних. Тому, для дослідження досить взяти одну з цих змінних, яка більш впливає на результат.

Вибір змінних – це важливий етап дослідження. На початку роботи має сенс провести попередній аналіз змінних, використовуючи при цьому знання в предметній області і стандартні статистичні критерії.


^ 3. Робота з пакетом програм «Statistica»


Для початку роботи з пакетом програм «Statistica» необхідно запустити цю програму, що робиться звичайним чином – шляхом вибору відповідного пункту в списку програм або подвійним настиканням на піктограму «Statistica» на робочому столі Windows.

В програмному пакеті «Statistica» використовують віконну форму роботи, так само як і в програмах Windows. Вікна досить схожі на вікна інших програм Windows, таких як MS Word, MS Exel та інш.

Вікно системи має наступну структуру: верхній заголовок Statistica – Basic Statistics and Tables (основні статистики і таблиці), тобто включений модуль Basic Statistics and Tables, якщо був би запущений інший модуль, то його назва вказувалась би в заголовці. Строка меню, панель інструментів і робоча область займає більшу частину вікна. В робочу область виводять документи системи, які отримують в процесі аналізу.

В строці заголовка знаходять також три кнопки, які дозволяють змінити розміри вікна:

  • кнопка мінімізації розмірів вікна. Якщо клацнути на неї, то вікно модуля буде згорнуто до розмірів кнопки на панелі задач Windows;

  • кнопка відновлення розмірів вікна. Вона з’явиться у випадку, коли Statistica ввімкнена в повноекранному режимі (основне вікно займає весь екран). Якщо натиснути на неї, то розмір вікна зменшиться, а вигляд самої кнопки зміниться на кнопку максимізації розміру вікна, за допомогою якої знову можна розкрити вікно до розмірів повного екрану;

  • кнопка закриття вікна. Натиснення на неї призведе до закриття вікна і виходу із відкритого модуля.

Інший спосіб закриття модуля – комбінація клавіш Alt + F4.

Меню займає другу строку головного меню вікна модуля і включає в себе систему меню, яка випадає. Ряд пунктів таких як File (Файл), Edit (Правка), View (вид), Windows (Вікно), Help (Допомога) стандартні для Windows, пункт Analysis (Аналіз) специфічний для Statistica.

Для вводу даних необхідно здійснити наступні дії:

  1. Війти в діалогове вікно Створити набор даних – Create Data Set.

  2. Ввести значення числа даних в представленій на екрані комп’ютера таблиці.

  3. Записати створену базу даних у вигляді файлу за допомогою функції. Записати набор даних – Save Data Set за допомогою команди Набір даних – Data Set... із меню Файл Записати як – File-Save і набрати ім’я файлу і натиснути команду Записати-Save.

Для зміни даних необхідно “мишкою” навести на необхідну ячійку з “старим числовим значення”, натиснути на “мишку” і набрати “нове значення” змінної.

Для того, щоб добавити спостереження здійснюють наступні дії:

  1. Вибирають ячійку таблиці, натискають по ній “мишкою”.

  2. Натискають клавишу Стрілка вниз.

  3. Вводять значення для другого спостереження. Заповнивши всі клітинки строки, натискають клавишу Вхід (Enter).

  4. Натиснувши клавішу Вхід в останній ячійці, програма створює строку третього спостереження. Якщо вона непотрібна, то клавішу Вхід не натискають.

Якщо випадково створюється непотрібне спостереження, його можна вилучити: натиснути в середній частині мітки строки, відповідної непотрібному спостереженню, мітки розташовані в лівій частині таблиці, вся строка стане виділеною; нажміть клавішу CTRL+X і спостереження буде вилучено.

Для присвоєння спостереженню ім’я, необхідно зробити наступне:

  1. Два рази натиснути в середній частині мітки строки цього спостереження; мітки строк розташовані в лівій частині таблиці. З’явиться текстовий курсор.

  2. Вводять ім’я. В якості мітки строки може використовуватися її номер.

  3. За допомогою клавиш Стрілка вліво і Стрілка вправо курсор можна пересувати по буквам імені, клавішами DELETE і BACKSPACE – вилучати непотрібні символи, за допомогою клавіш Стрілки вниз і Стрілка вверх можна перейти до назв інших спостережень, клавиша ESCAPE закінчує редагування.

Аналогічно можна присвоїти назву змінним – для цього потрібно відредагувати мітки стовбців.

Панель інструментів займає третю й четверту строки робочого вікна і розташовані нижче строки меню.

Вихідні дані в системі STATISTICA організовано у вигляді електронної таблиці. Електронна таблиця системи SPREAD SHEETS складається із строк і стовбців. На відміну від звичайних електронних таблиць, де строки та стовбці рівноправні, в STATISTICA вони мають різні смислові значення.

Стовбці електронної таблиці з вихідними даними називаються Variables (змінний), а строки Cases (випадки). Змінними звичайно виступають величини, що досліджуються, а випадки – це значення, які приймають змінні в деяких вимірах.

Створення і відкриття файлів даних

Підведіть курсор миші до пункту меню File (файл) і натисніть лівою кнопкою. У меню, що з’явиться на екрані, виберіть Open Data (відкрити дані).

Команди з меню можна викликати також за допомогою відповідної комбінації “гарячих” клавиш. Наприклад, CTRL+О.

Створення файлів даних в системі STATISTICA відбувається наступним чином:

  1. Створення електронної таблиці. Оберіть команду New Data (нові данні) з меню File (файл). Ця команда доступна також по комбінації клавиш CTRL+N. В діалоговом вікні New Data: Specify File Name,(нові данні: визначити ім’я файла) що з’явиться, введіть ім’я. Нажміть кнопку ОК в правому верхньому кутку вікна. В заголовку електронної таблиці автоматично відобразиться ім’я файла та його розмір.

Розмір таблиці по умовчанню прийняти 10 на 10 (10 змінних з іменами VAR1, VAR2, VAR3 …VAR10 і 10 пронумерованих випадків).

  1. Налагодження таблиці. Для налагодження таблиці використовують кнопка Vars Variables (змінні) на панелі інструментів і команда Delete (вилучати). В діалоговому вікні Delete Variables (вилучення змінних) вказують діапазон змінних, що вилучають.

Для вилучення зайвих випадків скористайтесь кнопкою Cases (випадки) і командою Delete (вилучати). У вікні, що з’явиться зробіть відповідні установки. Задайте діапазон випадків, які вилучаєте в діалоговому вікні Delete Cases (вилучити випадки). Натисніть кнопку ОК.

  1. Підготовка таблиці до виводу даних, заголовок таблиці й імена змінних. Двічі натисніть мишею на білому полі в таблиці під словами Data. На екрані з’явиться вікно Data File Header (заголовок файлу даних), в якому можна задати заголовок таблиці і додаткову інформацію про дані. Ця додаткова інформація завжди буде доступна користувачу. Натисніть кнопку ОК в діалоговому вікні Data File Header. Таблиця майже готова до введення даних. Для більш зручного вигляду можна ввести імена змінних, які відображають значення записів і їх специфікувати. Надаєм імена змінним. Двічі натиснувши на імені змінної VAR1 в електронній таблиці. На екрані з’явиться вікно специфікації змінної VAR1. Такі ж дії проводять і з іншими змінними VAR2, VAR3…VARn.

  2. Введення даних в електронну таблицю відбувається простим набором їх значень у відповідні клітинки таблиці.

  3. Зберігаємо файли даних. Для збереження створеного файлу натисніть мишею на кнопку Save Data File (зберегти файл даних) або ж набрати на клавіатурі CTRL+S.

Обчислення кореляції

В економетричному аналізі для оцінки значущості моделі використовують коефіцієнти кореляції і детермінації.

Коефіцієнт кореляції відображає ступінь взаємозв’язку між факторами. Коефіцієнт кореляції позначають грецькою буквою ?, яку вимовляють як “ро” і відповідає латинській “r”. Для змінних х і у цей коефіцієнт визначають наступним чином:

?х,у = ?х,у / , (1.1)

де ?х,у – коефіцієнт кореляції змінних х і у;

?х,у – середньоквадратичне відхилення змінних х і у.

Якщо х і у незалежні, то ? дорівнює нулю. Якщо між змінними існує позитивна залежність, то ?х,у, а відповідно, і ?х,у будуть позитивними. Якщо існує строга позитивна лінійна залежність, то ?х,у має максимальне значення, яке дорівнює 1. Аналогічним чином при негативному зв’язку ?х,у буде від’ємним з мінімальним значенням –1.


В економетричному аналізі для дослідження впливу факторів розраховують коефіцієнти часткової кореляції:

rxy,z = rxy - rxzryz/?(1 - rxz2)(1 - ryz2), (1.2)

де rxy,z – коефіцієнт часткової кореляції між х і у у випадку постійного впливу показника z;

rxy, rxz, ryz – звичайні коефіцєнти кореляції між х і у, х і z, у і z

відповідно.

Іншим важливим показником, який використовують для оцінки значущості моделі є коефіцієнт детермінації. Він представляє собою міру тісноти зв’язку між факторами економетричної моделі. Коефіцієнт детермінації пов’язаний з коефіцінтом кореляції – як квадрат від останього:

r = r2. (1.3)

При r2=1 маємо точний (функціональний) зв’язок, при r2=0 можна зробити висновок про відсутність кореляційного зв’язку.

Для обчислення кореляції між змінними натискають на кнопку Quick Basic Stats (швидкі основні статистики) на панелі інструментів електронної таблиці. В меню, що з’явиться на екрані, оберіть кнопку Correlations. Після цього оберіть відповідні змінні і натисніть ОК. Після цього з’явиться таблиця на екрані з коефіцієнтами кореляції.

Побудова статистичних графіків

Для побудови статистичних графіків необхідно виконати декілька послідовних кроків.

Крок 1. Оберіть якесь значення змінної. Наведіть курсор на значення і натисніть ліву кнопку миші.

Крок 2. Натисніть кнопку Quick Stats Graphs (швидкі Stats-графіки) на панелі інструментів електронної таблиці. Ця кнопка відкриває меню (статистичних графіків) для поточної змінної (стовбців, в яких знаходиться курсор даний момент). Quick Stats Graphs представляє собою визначені статистичні графіки і відображають стандартним графічним способом вихідні дані.

У меню, що випадає оберіть пункт (діаграма розсіювання) і далі пункт Regular (регулярний). На екрані з’явиться діалогове вікно Select One Variable (обрати одну змінну).

Крок 3. Висвітити мишею ім’я змінної і натиснути ОК. Наступний графік з’явиться на екрані.

Крок 4. Для збереження графіка роблять набір на клавіатурі CTRL+S. На екрані з’явиться вікно Save Graphs (зберегти графік). У строчці File Name (ім’я файлу) вкажіть ім’я, під яким зберегти графік. Натисніть ОК. Створений графік зберігається і завжди буде доступним досліднику. Графік зберігається в форматі STATISTICA, і файл має розширення *.stg.

Гістограма є досить популярним статистичним графіком, вона дозволяє представити частоту попадання величин у відповідні інтервали. Особливо важлива гістограма, коли спостерігається велика кількість даних.

Для побудови гістограми виконують наступні етапи:

  1. Виділяють значення змінної.

  2. Натискають кнопку Quick Stats Graphs (Швидкі Stats-графіки) на панелі інструментів електроної таблиці. Кнопка Quick Stats Graphs відкриває таке ж саме меню. В ньому виберіть пункт Histogram (Гісторама) і далі пункт Regular (Регулярна). На екрані з’явиться графік.

  3. Якщо потрібно, зберігають графік. Для цього можна набрати на клавіатурі CTRL+S. На екрані з’явиться вікно, в якому задається ім’я під яким графік буде збережено. Натискають ОК. Гісторама зберігається і буде завжди доступна.

Робота з модульною структурою системи STATISTICA

STATISTICA організовано за модульним принципом. Це означає, що всі методи статистичної обробки, які реалізуються в системі, з’єднані в декілька груп – модулів – відповідно до розділів статистичного аналізу.

Кожен модуль є окремим Windows-додатком і може працювати окремо від інших модулів системи.

Модулі STATISTICA відкриваються шляхом натискання кнопки миші із перемикачів моделей STATISTICA. Для того, щоб визвати перемикач модулів, натискають в області Windows кнопку пуск, далі у висвітленому меню натискають на слові STATISTICA. Перемикач модулів STATISTICA з’явиться на екрані.

Кількісна реалізація статистичних методів в STATISTICA така, що вона дозволяє на комп’ютері вирішувати завдання обробки даних як по точності, так і по швидкості розрахунків.

Модулі запускають простим натисканням на кнопку миші із перемикачів модулів: спочатку висвічується назва модуля в перемикачі модулів, далі нажимають кнопку Switch to (Переключитися в) або просто два рази натиснути на назві модуля. Після цього на екрані з’явиться робоче вікно системи із стартовою панеллю модуля.

Аналіз даних в системі STATISTICA

Аналіз даних в системі статистика здійснюють в декількох модулях. Важливим з них є модуль Basic Statistics/Tables (Основні статистики/таблиці). В цьому модулі знаходиться ймовірносний калькулятор. З його допомогою можна вирішувати досить велику кількість статистичних завдань.

Ймовірносний калькулятор – це інструментарій, який дозволяє швидко побудувати графік найбільш використаних функцій розподілу і їх плотності, розрахувати відсоткові точки.

Запускають ймовірносний калькулятор наступним чином:

  1. Запускається модуль Basic Statistics/Tables із Переключателя модулей.

  2. Висвічується в стартовій панелі модуля Basic Statistics/Tables строка Probability calculator (Ймовірнисний калькулятор). Настикають ОК.

  3. Далі висвічується вікно Probability Distribution Calculator (Калькулятор ймовірнисних розподілів). Це вікно має наступну структуру: в лівій частині знаходиться список розподілів Distribution (Розподіл).

Більшість стандартних розподілів у цьому вікні можна отримати, висвітлюючи їх назви в списку зліва: Бета, Коші, нормальне, логнонормальне, розподіл Стьюдента і т.п. Оберемо, наприклад, в списку саму нижчу строку Z (Normal) – Нормальний розподіл.

  1. Автоматично справа з’являються поля, де можна задати параметри нормального розподілу: середнє – mean и стандартне відхилення – st. Dev. По умовчанню система запише в них стандартні значення: середнє=0, стандартне відхилення=1. Звичайно, ці значення можна змінити. Наведіть курсор миші в ці поля, натисніть ліву кнопку і введіть з клавіатури необхідні значення.

  2. Водночас з вибором розподілу в лівому списку справа в калькуляторі з’являються графіки нормальної густоти і функції розподілу: Density Function (Функція густоти), Distribution Function (Функція розподілу).

  3. В полі р задається рівень ймовірності. Наведіть курсор миші в це поле і натисніть ліву кнопку. Наберіть далі будь-яке значення в інтервалі від 0 до 1. Після натискання на кнопку Compute (Обчислити) (в правому верхньому куті калькулятора) в строці Z з’явиться відповідний квантиль.

Те ж саме можна зробити і в інший бік – по заданому значенню Z обчислити рівень ймовірності р задавши будь-яке значення. Задавши яке-небудь значення Z, натискають на кнопку Compute (Розрахувати) в правому верхньому куті. В строці р з’явиться рівень для даного значення Z.

7. Опції в верхньому куті вікна мають наступне призначення: Inverse (Зворотня функція розподілу), Two-tailed (Двостороння), 1-Cumulative p – 1 – p, Print (Печать), Create graph (Створити графік).

Якщо помістити опцію Create graph і нажати далі кнопку Compute на екрані з’явиться графік щільності і функції розподілу.

Нормальній розподіл – це найбільш часто зустрічаємий в статистиці і в теорії ймовірності розподіл.

Відомо, що випадкові помилки в економічних рядах, рядах, які виникли в промисловості і т.д. мають приблизно нормальний розподіл.

Нормальний розподіл має два параметра:

  • mean – середнє;

  • standard deviation – стандартне відхилення.

Ці параметри задаються у вікні ймовірносного калькулятора.

Іноді стандартне відхилення називають середньоквадратичним відхиленням.

Наведемо деякі відзнаки нормального розподілу.

Щільність нормального розподілу симетрична відносно середнього. Середнє значення визначає ступінь щільності. Середнє значення нормального розподілу співпадає з медіаною і модою.

Для визначення щільності нормального розподілу необхідно відкрити ймовірносний калькулятор в полі mean, задавши значення від -1 до 1. В полі p можна задати значення 0,5.

Потім вибирають опцію Compute Create graph і натискають кнопку Compute, на екрані з’явиться графік щільності.

Повторивши подібні дії, задавши в полі mean з’явиться наступний графік. Видно, що графік нормального розподілу здвигається по осі ординат при зміні середнього. Можна сказати більш точно: при зростанні середнього графіка здвигається вправо.

Слід відмітити, що пік платності нормального розподілу знаходиться в точці з ординатою, яка дорівнює середньому значенню щільності симетрично відносно цього значення. Це значення задається в полі: mean.

Розглянемо як змінюється щільність розподілу залежно від змін іншого параметру – стандартного відхилення.

Задаємо різні значення стандартного відхилення, вважаючи, що середнє фіксовано і дорівнює 0.

Корінь квадратний із дисперсії дорівнює стандартному відхиленню. Дисперсію часто визначають сігмою в квадраті, а стандартне відхилення – просто сигмою. Дисперсія і стандартне відхилення позитивні. Дисперсія може наближатись до 0, проте не може приймати будь-яке значне значення, при цьому змінюється і розподіл ймовірності. Ці зміни відображаються на відповідних графіках.

При збільшенні дисперсії щільність нормального розподілу розсівається відносно середнього значення, при зменшенні дисперсії, вона, навпаки, зжимається, концентруючись коло однієї точки – точки максимального значення.

Важливе значення при економетричних дослідження має перевірка нормального розподілу вибірки даних. Воно може бути здійснено за допомогою правил 2 и 3 сигма. В системі цього комп’ютерного пакету програм також можна здійснити виконання цих правил.

Вибирають нормальний розподіл в переліку розподілів, можна задати стандартні параметри: середнє 0, стандартне відхилення 1, помітити опцію Two-tailed, в строці Z можна задати 2, натискають Compute, в строці з’явиться значення 0,9545.

В полі Density Function (Функція щільності) ймовірносного калькулятора показана заштрихована площина під графіком щільності, в полі р показано значення 0,9545. Переходячи до відсотків, маємо 95,45%. Заштрихована площина складає 95,45% всієї площини під графіком.

Можна зробити те ж саме для 3 сигм. Вибирають нормальний розподіл, задають стандартні параметри: середнє стандартне відхилення 1, помічають опцію Two-tailed в строці задайте 3 (три стандартних відхилення), натисніть Compute в строці р з’явиться значення 0,9973.

Більшість інших важливих розподілів будують, виходячи із нормального розподілу.

Випадкова величина, яка має розподіл хі-квадрат, визначають як суму квадратів к незалежних стандартних нормальних величин. Нормальні випадкові величини – це величини, які мають нормальний розподіл. Кількість к у визначенні хі-квадрата називаються кількістю ступенів вільності. В випадку, коли к=1 випадкова величина хі-квадрат дорівнює квадрату стандартної нормальної величини. Цей розподіл має тільки один параметр кількість ступенів вільності, є цілим позитивним числом.

В рамках пакету програм в списку розподілу ймовірносного калькулятору вибирають Chi I – хі-квадрат-розподілу.

В строці df, наприклад, задайте 7 – кількість ступенів вільності.

В полі р можна задати 0,95. Натисніть кнопку Compute, в строці Chi I побачимо 0,95 – квантиль хі-квадрат-розподіл з 7 ступенями вільності.

Вибирають далі опцію Створити графік і знову натискають на кнопку Compute або Enter на клавіатурі, побачимо графік і функції розподілу хі-квадрат с 7 ступенями вільності.

Слід відзначити, що розподіл хі-квадрат відіграє важливу роль при дослідженні оцінки дисперсії нормальної вибірки, а також при перевірці залежностей в таблицях зв'язаності і в критеріях згоди.

При збільшенні кількості ступенів вільності пік щільності розподілу зменшується і зміщується вправо, розподіл розпливається по позитивній полуосі.

При оцінці адекватності економетричних моделей важливого значення має t-розподіл Ст’юдента. Його використовують для оцінки надійності коефіцієнта кореляції. В цьому випадку t-статистику для r розраховують наступним чином:


t = ?n-2/1-r2. (1.4)

Вибравши рівень значущості в 5% дослідник знаходить критичне значення t з (n - 2) ступенями свободи. Якщо значення t перевищує його критичне значення (позитивний або негативний бік), то нульову гіпотезу відхиляють про те, що коефіцієнт кореляції дорівнює нулю. В цьому випадку роблять висновок про лінійний зв’язок (позитивний або негативний).

Слід відзначити, якщо нульова гіпотеза підтверджується, то значення t буде перевищувати його критичне значення (в позитивний або негативний бік) тільки в 5% випадках. Це означає, що при виконанні перевірки ймовірності допущення помилки, що відхиляє нульову гіпотезу, коли вона фактично вірна, складає 5%.

Ймовірно, що ризик допущення такої помилки в 5% випадків досить великий для дослідника. Тоді він може скоротити ступінь ризику, здійснюючи розрахунки при рівні значущості в 1%. Критичне значення t зараз буде вище, ніж до цих пір, тому необхідна більш висока (позитивна або негативна) t-статистика для відхилення нульової гіпотези, а це означає, що потрібно більш вище значення коефіцієнта кореляції.

Для визначення t-статистики в списку розподілу ймовірносного калькулятора виберіть t (Student) (t-розподіл Ст’юдента). В строці df задайте 5 – кількість ступенів вільності. Для графічного відображення помічають опцію Create graph.

В полі р можна задати 0,5. Натискаючи кнопку Compute на екрані можна побачити також графіки нормального розподілу.

Щільність t-розподілу деформується при зростанні кількості ступенів вільності наступним чином: пік збільшується, хвости більш круто йдуть до 0, здається зжимається з боків.

В такій деформації щільності досить легко підтвердити за допомогою імовірнісного калькулятора. Можна задати, наприклад, в полі df (ступеня вільності) значення 35. Натиснувши кнопку Compute, на екрані побачимо графік. Потім, можемо, наприклад задати в цьому полі 50, і також зробимо дії, щодо побудови графіків. Побачимо, що ці графіки будуть досить схожими.

F-тест використовують для оцінки того, чи важливе пояснення, яке дає рівняння в цілому. Тобто в регресійному аналізі побудова F-статистики здійснюється шляхом відношення дисперсії залежної змінної на “пояснювальні” і “непояснювальні” складові:

F = (ESS / k) / RSS / (n-k-1), (1.5)

де ESS - пояснювальна сума квадратів відхилень;

RSS – залишкова (непояснювальна) сума квадратів;

к – кількість ступенів свободи;

n – кількість значень факторів моделі.

При здійсненні F-теста для рівняння перевіряють, чи перевищує r2 те значення, яке може бути отримано випадково. Для розрахунку F-статистики для рівняння в цілому, формулу (3.4) можна трансформувати шляхом ділення чисельника і знаменника рівняння на TSS (загальну суму квадратів), відмічаючи, що ESS/TSS дорівнює r2, а RSS/TSS дорівнює (1 - r2). В результаті отримуємо наступне рівняння:

F= r2 / к / (1 - r2) / (n – k - 1). (1.6)

Розрахунковий F-критерій визначають при відповідному рівні значущості і ступенях свободи і порівнюють з критичним F-критерієм Фішера. Значення останнього критерія представлені в спеціальних таблицях. Якщо розрахунковий F-критерій перевищує його критичне значення, то можна стверджувати, що пояснення, яке дає рівняння в цілому важливе, а економетрична модель адекватна. У протилежному випадку – модель вважають неадекватною, а пояснення неважливе.

В рамках цього пакету програм F-розподіл зосереджений на позитивній полуосі. Цей розподіл на відмінність від нормального несиметричний. Покажемо, як побудувати графік F-розподілу і розрахувати його відсоткові точки.

В списку ймовірносного калькулятора вибирають F (F-розподіл).

Задайте, наприклад, в полі df1 (ступінь вільності 1) значення 10, в полі df2 (ступень вільності 2) - значення 11. Відзначте опцію Create graph.

В полі р задають 0,5. Натиснувши кнопку Compute на екрані з’явиться графік, який буде відображати графічне визначення F-розподілу.

При використанні пакету програм Statistica можна визначити мультиколлінеарність. Мультиколлінеарність повинна виникати за рахунок сполучення нестрогої залежності одного (або більше) незадовільних умов, і це – питання ступіню визначенності явища, а не його виду. Оцінки регресії будуть незадовільні від неї у відповідному ступіні, коли тільки всі незалежні змінні будуть абсолютно некорельовані. Розгляд цієї проблеми починають тільки тоді, коли вона досить суттєво впливає на результати оцінки регресії.

Ця проблема є звичною для регресій часових рядів, тобто коли значення показників складаються із рядів спостережень протягом визначеного періоду часу. Якщо дві або більше незалежних змінних мають часовий тренд, то між ними буде існувати кореляція, і це може призвести до мультиколлінеарності.

Існують різні методи для зменшення мультиколлінеарності. Вони діляться на дві категорії: до першої категорії відносяться методи спрямовані на виконання умов, що забезпечують надійність оцінок регресії; до других – відносяться використання зовнішньої інформації. Якщо з початку використовувати можливі значення показників, то, звичайно, було б важливим збільшити кількість спостережень. Якщо, наприклад, використовують часові ряди, то це можна зробити шляхом скорочення терміну кожного періоду часу.

В рамках пакету програм виявлення явища мультиколлінеарності відбувається шляхом побудови матриці кореляції і визначення коефіцієнтів кореляції. Слід ще раз відзначити, що для обчислення кореляції між змінними натискають на кнопку Quick Basic Stats (швидкі основні статистики) на панелі інструментів електронної таблиці. В меню, що з’явиться на екрані, оберіть кнопку Correlations. Після цього оберіть відповідні змінні і натисніть ОК. Після цього з’явиться таблиця на екрані з коефіцієнтами кореляції.

Важливим етапом оцінки адекватності економетричної моделі є перевірка її на гетеро або гомоскедастичність. Гомоскедастичність означає однаковий розподіл фактичних значень виборки змінних. Тобто фактичні значення спостережень іноді будуть позитивними, іноді негативними, іноді – відносно близькими до нуля, проте в априорі відсутні причини появи великих відхилень між спостереженнями.

Разом з тим, для деяких вибірок, можливо, більш доцільно припустити, що теоретичний розподіл випадкового члену є різним для різних спостережень. Це не означає, що випадковий член обов’язково буде мати особливо більші (позитивні або негативні) значення в кінці виборки, проте це означає, що апріорна йомовірність отримання більш відхилених значень буде відносно висока. Це є прикладом гетероскедастичності, що означає “неоднаковий розподіл”.

Гетероскедастичність стає проблемою, коли значення змінних, які включаються в рівняння регресії, значно відрізняються в різних спостереженнях. Якщо залежність може буде описана рівнянням, в якому економічні показники змінюють свій масштаб одночасно, то зміна значень невключених змінних і помилок виміру, впливаючи разом на випадковий член, роблять його порівняно незначними при незначних у і х і порівняно великими – при великих у и х.

Досить часто можна виявити проблему гетероскедастичності. В таких умовах можна здійснити відповідні дії по виключенню цього ефекту на етапі специфікації моделі регресії, і це дозволить зменшити або, можливо, усунути необхідність формальної перевірки. Зараз запропоновано значне число тестів (і, відповідно, критеріїв для них). Найбільш поширеними тестами є: тест рангової кореляції Спірмена, тест Голфреда-Квандта і тест Глейзера.

При виконанні теста рангової кореляції Спірмена припускають, що дисперсія випадкового члену буде або збільшуватися, або зменшуватися відповідно збільшення змінної х, і тому в регресії, абсолютні значення залишків і значення х будуть корельовані. Дані по х і залишки упорядковують і коефіцієнт рангової кореляції визначають як:

rx,e = 1 – (6?D2i/n(n2 - 1)), (1.7)

де Di – різниця між рангом х і рангом помилки е;

е – залишки.


Якщо припускати, що відповідний коефіцієнт кореляції для генеральної сукупності дорівнює нулю, то коефіцієнт рангової кореляції має нормальний розподіл з математичним очікуванням 0 і дисперсією 1/(n - 1) в більших виборках. Таким чином, відповідна тестова статистика дорівнює rx,e ?n-1, і при використанні двобокового критерія нульова гипотеза про відсутність гетероскедастичності буде відхилена при рівні значущості в 5%, якщо вона перевищує 1,96, і при рівні значущості в 1%, якщо вона перевищує 2,58. Якщо в моделі регресії знаходиться більш однієї пояснювальної змінної, то перевірка гипотези може здійснюватися з використанням іншої з них.

Ймовірно, найбільш відомим формальним критерієм є критерій, запропонований С. Голдфелдом і Р. Квандтом. При проведенні перевірки за цим критерієм припускати, що стандартне відхилення (?і) розподілу ймовірностей Uі пропорційно значенню х в цьому спостереженні. Запропоновано також, що випадковий член розподілений нормально і не піддається автокореляції.

Всі n спостережень у виборці упорядковують за значенням х, після чого оцінюється окремі регресії для перших n і для останніх n спостережень; середні (n - 2n) спостереження відхиляють. Якщо припущення відносно природи гетероскедастичності доцільно, то дисперсія U і в останніх n спостереженнях буде більшою, чим в перших n, і це буде відображено в сумі квадратів залишків у двох вказаних “часткових” регресіях. Визначаючи суми квадратів залишків в регресіях для перших n і останніх n спостережень відповідно через RSS1 i RSS2. Розраховуємо відношення RSS2/RSS1, яке має F-розподіл з (n – к - 1) і (n – к - 1) ступенями свободи, де к – число пояснювальних змінних у регресійному рівнянні. Потужність критерія залежить від вибору n відносно до n. Грунтуючись на результатах деяких проведених експериментів, С. Голдфелд і Р. Кванд стверджують, що n повинно складати порядок 11, коли n = 30, і порядка 22, коли n = 60. Якщо в моделі знаходиться більш однієї пояснювальної змінної, то спостереження повинні упорядковуватися за тією з них, яка, як запропоновано, пов’язана з ?і і n повинно бути більше, ніж к + 1 (де к – число пояснювальних змінних).

Метод Голдфелда-Квандта може бути також використаний для перевірки на гетероскедастичність при припущенні, що ?і обернено пропорційний хі. При цьому використовують подібну процедуру, що і розглянута вище, проте тестова статистика зараз є показником RSS1/RSS2, який знову має F-розподіл з (n – к - 1) і (n – к - 1) ступенями свободи.

Тест Глейзера дозволяє більш ретельно розглянути характер гетероскедастичності. Він грунтується на тому, що знімається припущення, що ?і пропорційна хі, а перевіряють лише більш подібну функціональну форму.

Для того, щоб використовувати цей метод, необхідно оцінити регресійну залежність у від х за допомогою методу найменших квадратів, а потім розрахувати абсолютні значення залишків е, оценивши їх регресію. В кожному випадку нульова гипотеза про відсутність гетероскедастичності буде відхилена, якщо оцінка регресії відрізняється від нуля. Якщо оцінюють більше однієї функції, то орієнтиром при визначенні характера гетероскедастичності може служити найкраща з них.

В пакеті програм Statistica для виявлення гомо- або гетероскедастичності Тестування моделі здійснюють на підставі тесту рангової кореляції Спірмена. Значущість отриманого коефіцієнта рангової кореляції Спірмена перевіряють за допомогою t-критерія Стьюдента при (n-2) кількості ступенів свободи.

Фактичне значення t-критерію Стьюдента зіставляють з tкр. Якщо tф  tкр, то підтверджують гіпотезу про наявність гетероскедастичності. А, якщо tф  tкр, то приймають гіпотезу про гомоскедастичність. Для перевірки на гетероскедастичність використовують функцію Spearman.

Для перевірки адекватності економетричної моделі використовують тест Дарбіна-Уотсона, що спрямований для перевірки кореляції між залишками. Він включає такі етапи:

  1. Розраховують d-статистики для аналізованої вибірки даних. Як відомо з теорії, значення d-статистики лежать у межах від 0 до 4.

2. Порівнюють отримані d-статистики з табличними d-статистиками при рівні значущості  = 0,05, кількості факторів k, що присутні в моделі, і кількості спостережень n. Якщо розраховане значення d-статистики знаходиться в проміжку від 0 до dL (0 d  dL), то це свідчить про наявність позитивної автокореляції. Якщо значення d потрапляє в зону невизначеності, тобто набуває значення dL  d  dU, або 4 - dU  d  4 - dL, то ми можемо зробити висновки ні про наявність, ні про відсутність автокореляції. Якщо 4 - dL  d  4, то маємо негативну автокореляцію. Нарешті, якщо dU  d  4 - dU, то автокореляції немає.

Для впровадження тесту Дарбіна-Уотсона в рамках програми використовують функцію Durbin-Watson.



  1   2

Схожі:

Міського господарства iconМіністерство освіти І науки україни харківська національна академія міського господарства о.І. Славута, В. В. Княжеченко
Особливості економіки підприємств міського господарства: Конспект лекцій для студентів спеціальності “Економіка підприємств міського...
Міського господарства iconМіністерство освіти І науки україни харківська національна академія міського господарства проблеми розвитку туризму І готельного господарства: регіональний аспект харків, хнамг
Затверджено на засіданні вченої ради Харківської національної академії міського господарства (протокол № від січня 2009 р.)
Міського господарства iconМіського господарства н. О. Кондратенко
Методичні вказівки до проведення практичних занять з дисципліни “організація виробництва на підприємствах міського господарства”
Міського господарства iconМіністерство освіти І науки, молоді та спорту україни харківська національна академія міського господарства
З дисципліни «обстеження, ремонт І реконструкція будинків міського господарства»
Міського господарства iconХарківська національна академія міського господарства прасоленко Олексій Володимирович
Робота виконана в Харківській національній академії міського господарства, Міністерство освіти І науки України
Міського господарства iconХарківська національна академія міського господарства програма І робоча програма
Логістика", "Менеджмент організацій міського господарства", "Менеджмент організацій в будівництві", "Менеджмент організацій місцевого...
Міського господарства iconХарківська національна академія міського господарства
Цей стандарт не може бути повністю чи частково відтворено, тиражовано та розповсюджено без дозволу Харківської національної академії...
Міського господарства iconРобоча група Харківської національної академії міського господарства з напрямку «Реформа житлово-комунального господарства»
...
Міського господарства iconМіністерство освіти І науки, молоді та спорту україни харківська національна академія міського господарства
...
Міського господарства iconХарківська національна академія міського господарства в. Е. Абракітов картографування шумового режиму центральної частини міста київа харків хнамг
Рекомендовано вченою радою Харківської національної академії міського господарства
Міського господарства iconХарківська національна академія міського господарства в. Е. Абракітов створення карт шуму сучасних міст із застосуванням геоінформаційних технологій харків хнамг
Рекомендовано вченою радою Харківської національної академії міського господарства
Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©zavantag.com 2000-2013
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи