Современные статистические алгоритмы анализа данных и их реализация на языке r icon

Современные статистические алгоритмы анализа данных и их реализация на языке r




Скачати 35.95 Kb.
НазваСовременные статистические алгоритмы анализа данных и их реализация на языке r
Дата30.06.2013
Розмір35.95 Kb.
ТипДокументи

УДК 519.25


СОВРЕМЕННЫЕ СТАТИСТИЧЕСКИЕ АЛГОРИТМЫ АНАЛИЗА ДАННЫХ И ИХ РЕАЛИЗАЦИЯ НА ЯЗЫКЕ R


Бахрушин В. Е., Бахрушин А. В., Дудко І. О., Игнахина М. А.

Классический приватный университет

Vladimir.Bakhrushin@gmail.com


Классические методы статистического анализа данных имеют ряд существенных недостатков [1], в т.ч.: многие из них применимы только к нормально распределенным выборкам; непригодность для данных очень большого объема, а также для выборок малого объема, которые часто встречаются на практике; неустойчивость оценок к выбросам; во многих случаях при анализе возможных связей ограничиваются линейным приближением. В связи с этим разработано большое число более совершенных методов, критериев и алгоритмов, которые более пригодны для решения конкретных классов задач анализа данных. Несмотря на это, в прикладных исследованиях по-прежнему преимущественно используют классические методы, которые являются неоптимальными либо вообще непригодными для решения рассматриваемых задач. В докладе рассмотрены современные подходы к решению ряда задач анализа данных.

В частности, для задач построения описательной статистики проанализированы характеристики различных показателей центра распределения и разброса данных относительно центра, а также способы их оценивания. Показано, что при решении ряда стандартных задач могут возникать проблемы, связанные выбором оптимальных вычислительных процедур. Продемонстрированы возможности использования эмпирических функций распределения для решения прикладных задач анализа данных.

В задачах проверки гипотез об однородности и типе распределения показаны преимущества современных непараметрических критериев по сравнению с традиционно используемыми. Предложен алгоритм решения задачи о типе распределения, предполагающий построение наилучшей модели заданного класса путем минимизации расчетного значения одного из непараметрических критериев (Крамера – фон Мизеса, Лиллиефорса и др.) [2]. Для решения вопроса об адекватности полученной модели предлагается использовать набор показателей, характеризующих статистические свойства ее остатков, а также оценки критических значений, получаемые по результатам статистического анализа их связи со значениями минимизируемых критериев.

В задачах проверки гипотез о наличии нелинейных связей предлагается использовать выборочный коэффициент детерминации с использованием оценок неизвестной функции связи, получаемых методом скользящего среднего [3]. Преимуществами такого подхода являются меньшая дисперсия оценок для немонотонных моделей связи, а также возможность использования моделей, представляющих собой неоднозначные функции.

Для многих прикладных задач важной является проблема выявления дифференциальных связей между характеристиками динамических систем. В [4] предложен новый подход, который может быть использован для выявления таких связей. Он базируется на численном интегрировании одного из имеющихся рядов данных и проверки гипотезы о наличии линейной связи между результатами интегрирования и вторым рядом. Однако остается открытым вопрос о статистических свойствах получаемого показателя связи.

В [5] предложено использовать выборочный коэффициент детерминации для анализа нелинейных кросскорреляционных связей в динамических системах. В дальнейшем этот подход был использован и для анализа автокорреляции. Показано, что в ряде случаев при анализе реальных данных социально-экономической статистики доля нелинейной составляющей может быть весьма значительной.

Для многих из задач рассматриваемые алгоритмы реализованы на языке R. В частности, это относится к построению описательной статистики, проверки гипотез о законе распределения, вычисления выборочного коэффициента детерминации и др. Этот язык в настоящее время стал неофициальным стандартом для статистических исследований. Его преимуществами являются: наличие обширных библиотек, реализующих большое число классических и неклассических методов статистического анализа данных; возможность создания собственных программ, реализующих новые алгоритмы, а также открытая лицензия на использование среды разработки и имеющихся программ.


Выводы

В настоящее время имеется широкий набор как универсальных, так и специальных статистических методов, предназначенных для решения широкого круга прикладных задач. Актуальной является проблема выбора наиболее подходящего метода при решении каждой конкретной задачи. Учитывая, что в ряде случаев приходится делать выбор из нескольких сотен или тысяч вариантов, необходима разработка формализованных процедур выбора и соответствующих средств автоматизации.


ЛИТЕРАТУРА

1. Бахрушин В. Є. Методи аналізу даних / В. Є. Бахрушин. – Запоріжжя: КПУ, 2011. – 268 с.

2. Бахрушин В. Е. Проблемы идентификации моделей распределения случайных величин с применением современного программного обеспечения / В. Е. Бахрушин // Успехи современного естествознания. – 2011. – № 11. – С. 50–54.

3. Бахрушин В. Е. Методы оценивания характеристик нелинейных статистических связей / В. Е. Бахрушин // Системні технології: Регіональний міжвузівський збірник наукових праць. – Дніпропетровськ, 2011. – № 2(73). – С. 9–14.

4. Бахрушин В. Є. Критерій для перевірки гіпотези про наявність зв'язку типу / В. Є. Бахрушин // Складні системи і процеси. – 2010. – № 1. – С. 3–5.

5. Бахрушин В. Є. Застосування показників нелінійної кореляції для побудови й аналізу крос-кореляційних функцій / В. Є. Бахрушин, В. Є. Павленко, С. В. Петрова // Складні системи і процеси. – 2009. – № 2. – С. 78–85.

Схожі:

Современные статистические алгоритмы анализа данных и их реализация на языке r iconПустыльник Е. И. Статистические методы анализа обработки наблюдений
Базара М., Шетти К. Нелинейное программирование. Теория и алгоритмы: Пер с англ. М.: Мир, 1982. – 583 С
Современные статистические алгоритмы анализа данных и их реализация на языке r iconВ. Ю. Современные измерительные средства и методы анализа характеристик динамических объектов : монография
Ларин В. Ю. Современные измерительные средства и методы анализа характеристик динамических объектов : монография / [В. Ю. Лар и н,...
Современные статистические алгоритмы анализа данных и их реализация на языке r iconДокументи
1. /Алгоритмы рус/02. Борисенко.doc
2. /Алгоритмы...

Современные статистические алгоритмы анализа данных и их реализация на языке r iconРодригес Залепинос Рамон Антонио, Резюме
Родригес Залепинос Р. А. является опытным специалистом в области высокопроизводительных вычислений, интеллектуальных систем визуализации,...
Современные статистические алгоритмы анализа данных и их реализация на языке r iconВ. Ю. Современные измерительные средства и методы анализа характеристик динамических объектов : монография
move to 1311-4197
Современные статистические алгоритмы анализа данных и их реализация на языке r iconДокументи
1. /Структура объектно-ориентированной базы данных информационно-управленческих архитектур и...
Современные статистические алгоритмы анализа данных и их реализация на языке r iconСтруктура системы сжатия данных методом локальных сдвигов
Аппаратная реализация средств сжатия позволяет существенно повысить быстродействие и надежность их работы
Современные статистические алгоритмы анализа данных и их реализация на языке r iconЛекція 3 "Інформатика та комп'ютерна техніка" Тема Основи побудови та функціонування пеом. Класифікація от І пз подання інформації в комп'ютерах
Способ представления информации в компьютере зависит от конструкции эвм, операционной системы и назначения данных. Современные информационные...
Современные статистические алгоритмы анализа данных и их реализация на языке r iconЛекція 3 "Інформатика та комп'ютерна техніка" Тема Основи побудови та функціонування пеом. Класифікація от І пз подання інформації в комп'ютерах
Способ представления информации в компьютере зависит от конструкции эвм, операционной системы и назначения данных. Современные информационные...
Современные статистические алгоритмы анализа данных и их реализация на языке r iconЛекція 3 "Інформатика та комп'ютерна техніка" Тема Основи побудови та функціонування пеом. Класифікація от І пз подання інформації в комп'ютерах
Способ представления информации в компьютере зависит от конструкции эвм, операционной системы и назначения данных. Современные информационные...
Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©zavantag.com 2000-2013
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи