Т. П. Волкова Математические методы в экологической геологии Учебное пособие icon

Т. П. Волкова Математические методы в экологической геологии Учебное пособие




НазваТ. П. Волкова Математические методы в экологической геологии Учебное пособие
Сторінка11/11
>Т.П. Волкова<><><>Математические методы в экологической геологи
Дата20.03.2013
Розмір3.08 Mb.
ТипУчебное пособие
1   2   3   4   5   6   7   8   9   10   11
^

8.4 Статистические методы выделения ассоциаций химических элементов



Методы выделения парагенетических химических элементов сводятся к разделению исходных совокупностей на несколько классов по степени сходства, составляющих их объектов. При этом предполагается, что степень сходства объектов, объединяемых в один класс, должна быть существенно больше степени сходства между объектами из разных классов.

Основной классификации исходных совокупностей химических элементов служат корреляционные матрицы их содержании в изучаемых объемах (минералах, породах или рудах), а мерой сходства – оценки парных коэффициентов их корреляции. Выделение парагенетических ассоциаций элементов сводится к выявлению внутри корреляционной матрицы [R] однородных блоков (подматриц типа [Ri]), соответствующих таким совокупностям элементов, содержания которых связаны линейной положительной зависимостью.

Строгое математическое решение задачи классификации исходных совокупностей по корреляционным характеристикам практически невозможно, поскольку коэффициенты парной корреляции элементов имеют стохастическую природу, в связи с чем во многих конкретных случаях возникают возможности многовариантного группирования объектов.

В геологической практике предложены различные методы исследования структур корреляционных матриц, среди которых Б.И. Смирнов выделяет шесть групп:

  1. Анализ корреляционной матрицы с позиций теории графов;

  2. иерархическое группирование (кластер- анализ) с помощью дендрограмм;

  3. методы, опирающиеся на понятия компактности;

  4. метод корреляционных профилей;

  5. каноническая корреляция;

  6. методы, использующие идеи и приемы факторного анализа.

Ниже рассматриваются возможности использования методов первой и второй групп.

Анализ корреляционной матрицы с позиций теории графов отличается наиболее простыми приемами классификации. Графом G (А) называется геометрическая схема, включающая две и более точки конечного множества А= {a1,., ak,.,аp), соединенные линиями, если между ними установлены линейные корреляционные связи. Каждая из точек(кружков) обозначает один из химических элементов. Элементы множества А называют вершинами, а линии их соединяющие- ребрами. Вершины, соединяемые ребрами, называются смежными, а не соединяемые- изолированными. Если все вершины графа смежны, причем реализованы все возможные для них соединения, граф называется полным. Две вершины ак и аl (к?l) называются связными, если существует цепь, концы которой находятся в вершинах ак и аl . Граф называется связным, если любая пара его вершин связана. Граф называется взвешенным, если каждому его ребру поставлено в связь некоторое число.

При решении многих геологических задач результаты вычисления корреляционных матриц часто изображаются в виде графов без дополнительной математической обработки данных. С этой целью весь диапазон значений коэффициентов парной корреляции условно разбивается на несколько интервалов (например, высокие- более 0,75, средние- 0,5- 0,75, низкие- 0,3-0,5 и незначимые- менее 0,3), а длины ребер между смежными вершинами выбираются обратно пропорционально значениям соответствующих парных коэффициентов. Для высоких значений они показываются толстыми линиями, для средних - тонкими сплошными, а для низких прерывистыми. Несмотря на возможность субъективных решений, иллюстрация многомерных линейных связей элементов с помощью подобных графов весьма наглядна, а числом возможных вариантов их группирования заметно снижается с повышением пороговых значений коэффициентов парной корреляции.

Для получения более строгих решений описание графов выполняется на основе матриц смежности, по алгоритмам нахождения максимально полных подграфов (максимально обособленных групп), методами «ветвящихся связей» или «максимального корреляционного пути», описанными в монографии Б.Н. Смирнова.
          1. Методы иерархической группировки (численной таксономии) исходных множеств получили название кластер-анализа,т.е. анализа групп. Первоначально они применялись в биологии и палеонтологии,а в настоящее время широко используются в различных отраслях геолого-минералогических наук, в частности, при классификации парагенетических ассоциаций элементов земной коры.

Задача кластер-анализа сводится к разбиению множества элементов корреляционной матрицы признаков [R] на группы таким образом, чтобы в них объединялись объекты с наивысшими значениями характеристик сходства, а разобщенные группы оставались бы при этом максимально изолированными по данному признаку. В качестве меры сходства могут использоваться непосредственно парные коэффициенты корреляции, m- мерное еквлидово расстояние или другие дистанционные коэффициенты.

Первый шаг анализа групп методом попарного объединения элементов матрицы состоит в выявлении наивысших коэффициентов корреляции между отдельными парами, которые объединяются и принимаются за центры групп. Число таких центров может изменяться от одного до трех (редко более).

Далее матрица вычисляется снова, причем сгруппированные элементы считаются за один элемент, а коэффициенты их корреляции с другими группами вычисляются заново с помощью различных методов осреднения. По результатам вычисления составляется новая матрица, меньше размерности, в которой изменяются лишь значения коэффициентов, связанные с членами объединенных групп. Сокращенная и пересчитанная матрица вновь подвергается сокращению, путем выявления и объединения пар с максимальными значениями признаков сходства, и последующим осреднением новых групповых коэффициентов. Операция последовательного сокращения и пересчета коэффициентов матрицы повторяется до тех пор, пока значения групповых коэффициентов сходства не достигнут порогового значения или размерность матрицы не станет минимальной . В первом случае процедура последовательного группирования прекращается на том ее шаге, которому соответствует принятое пороговое значение признака.

Для цепей корреляционного анализа парагенетических ассоциаций элементов рекомендуется использовать дистанционный коэффициент dт, который может быть рассчитан, как арккосинус коэффициента парной корреляции и обладает свойствами метрики. С этой целью исходная матрица [R] трансформируется с помощью тригонометрических таблиц в матрицу дистанционных коэффициентов [Dт], которая и подвергается процедуре последовательного группирования.

Результаты кластер-анализа изображаются в виде древовидного графа - дендрограммы, в которой по оси абсцисс располагаются символические обозначения объектов исследования (векторов матрицы), а по оси ординат - минимальные значения дистанционных коэффициентов, соответствующих каждому шагу классифицирующей процедуры. Таким образом, ось ординат используется для масштабного представления иерархических уровней группирования. Наглядность и содержательная ценность древовидных графов существенно повышается, если в них отражена информация не только о тесноте внутригрупповых связей, но и о межгрупповых расстояниях h. С этой целью по матрицам [Dт], [D?т], [D?т] и другим матрицам последовательно вычисляются значения h?, h? и т.д., которые затем выносятся на ось абсцисс. Такой дендровидный граф, учитывающий не только внутригрупповые расстояния, но и средние расстояния между группами, называется дендрографом.


8.5 Распознавание образов


В геологии и экологии начальные стадии изучения новых объектов базируются на их сопоставлении с уже известными, хорошо изученными и в какой-то мере похожими на изучаемый объект. Это, так называемый метод аналогий. Эффективность его использования в каждом случае зависит от решения вопроса сопоставимости объектов, степени их похожести. Применение метода предусматривает поиск и изучение природного аналога, выявление степени подобия (схожести) объекта изучения аналогу, перенесение характеристик аналога на объект изучения. Наиболее трудным при этом является установление признаков подобия объекта аналогу, так как из-за сложности геологических процессов строгого подобия между объектами добиться невозможно, а методы оценки допускаемых отклонений не разработаны.

Для приближенной оценки подобия сложных геологических объектов широко используют метод распознавания образов. Под термином «образ» понимают совокупность (множество) объектов определенного класса, характеризующихся рядом общих признаков. Задача распознавания образов состоит в выборе решающих правил разделения изучаемых объектов на родственные совокупности и в отнесении объектов неизвестной природы к определенному образу. При этом полагают, что всякому реальному объекту можно поставить в соответствие его изображение в виде точки в N-мерном пространстве (размерность пространства определяется числом признаков, характеризующих объект). То есть информация об объекте составляет изображение в виде вектора V=(V1, V2, …, VN), координаты которого количественно характеризуют свойства образа. В таком представлении совокупности изображений, относящихся к одному и тому же образу, соответствует набор точек, рассеянных внутри некоторой области пространства изображений. Ожидается, что совокупность изображений, принадлежащих конкретному образу, будет компактна («расстояние» между членами одного образа будет в среднем невелико), а сгустки их, представляющих изображения различных образов, будут отделены друг от друга. Ниже на рисунке приведена иллюстрация этой идеи для двумерной задачи.



Рис. 8.1 Изображение объектов двух классов (образов)

в двумерном пространстве

Для распознавания необходимо предварительно изучить признаки на совокупностях объектов, характеризующих каждый из распознаваемых образов, причем для правильного отнесения объектов к одному из заданных образов важно не количество набираемых признаков, а их характерность, взаимосвязь, информативность.

В геологии, как правило, разделению подлежат объекты, различие которых является лишь статистическим.

Теоретически каждый образ можно представить бесконечным числом объектов и, обучив на них машину, распознавать конкретные объекты неизвестной природы. На практике исследователь располагает ограниченным числом объектов по каждому образу. Можно лишь предполагать, что имеющиеся объекты достаточно объективно представляют все остальные – являются представительными. При распознавании образов в материале экзамена среди объектов, подлежащих распознаванию, не должно быть таких, на которых обучение не осуществлялось. Нельзя, например, потребовать разделения пород на изверженные и осадочные, если в числе распознаваемых объектов есть образцы метаморфических пород, так как последние будут неправильно относиться то к изверженным, то к осадочным.

Количество образов обучения может быть различным. При одном образе для исследуемых объектов осуществляется оценка «похожести» на объекты заданного класса, то есть ранжирование. Жесткого количественного критерия похожести не существует. При двух и более образах обучения исследуемые объекты относятся к тому или иному из заданных классов, хотя возможна и неопределенность решения.

Представим себе такую задачу. Изучаемая территория перспективна на слепое магнетитовое оруденение. Выявлено несколько десятков аномалий, природа которых может быть как рудной, так и породной. Необходимо разбраковать имеющиеся аномалии и определить первоочередные для постановки разведочных работ.

Если обучение осуществлено на основе объектов одного образа (месторождений), то для исследуемых аномалий будет получена относительная характеристика рудоносности. Разбуривание следует вести от наиболее «похожих» на месторождения к менее «похожим» до получения отказов. Обучение можно выполнить на основе представления рудных и породных объектов, и тогда вся совокупность исследуемых аномалий сразу разделится на две группы: рудные, породные. Для рудных, как и в первом случае, будет получена ранжированная оценка «похожести» на месторождения. Можно представить для обучения объекты трех классов: месторождения, рудопроявления, породные аномалии. Число первоочередных объектов для постановки разведочных работ при этом еще уменьшится.

Поскольку суть задачи распознвания образов заключается в определении степени сходства (или различия) анализируемых объектов, то в исходных данных, в том или ином виде, должны присутствовать три элемента:

  • совокупность из m объектов, описанных значениями n признаков;

  • способ выявления сходства-различия между анализируемыми объектами;

  • структура сходства-различия анализируемых данных.

В зависимости от того, какой из перечисленных трех элементов подлежит определению, задачи распознавания делятся на три типа: заданы образы, указаны признаки, необходимо найти решающее правило, согласно которому объекты неизвестной природы можно было бы относить к одному из заданных образов; заданы образы, решающее правило, необходимо найти систему признаков, которая обеспечивала бы разделение объектов с минимальными затратами на их получение; заданы объекты, охарактеризованные m-признаками, необходимо на основе каких-то правил делить их на классы. В настоящей главе рассматриваются вопросы распознавания применительно к решению задач первого типа.


8.2. Информативность признаков

При использовании метода распознавания совместно может применяться качественная и количественная информация. Информацию по качественным признакам для подготовки к машинному счету кодируют по принципу «да-нет». Признак имеется – «да», кодируют единицей; отсутствует – «нет», кодируют нулем. Принцип «да-нет» применим и для кодирования количественной (числовой) информации. Значения по каждому признаку разбивают на две части. Величины, меньшие разделяющего значения, кодируют нулями, а равные и большие – единицами. В качестве разделяющего создателями программ рекомендуется принимать среднее (модальное, медианное) по признаку для распознаваемых классов. В качестве разделяющего лучше принимать то, при котором суммарная ошибка неверного отнесения объектов одного образа к другому была бы минимальной.

Использование при распознавании не отдельных признаков, а их сочетаний повышает информативность имеющегося материала. В табл. 49 приведены значения трех неинформативных признаков (одинаково часто встречаются у объектов обоих образцов). Сочетания же признаков информативны: для первого образа характерны наличие или отсутствие всех трех признаков; для второго образа характерно: при наличии двух первых – отсутствие третьего и наоборот.

Эффект возрастающей мерности изучаемого пространства в разделении объектов на классы покажем на следующем примере. Имеются значения признаков А, В, С на объектах образов Р и Н (табл. 50). Все признаки изменяются в четырех Градациях, и каждая градация встречается у объектов сравниваемых образов. На основе значений каждого из признаков в отдельности можно судить лишь о различии в вероятностном смысле, объект с содержанием признаков А=1, например, в четыре раза вероятнее для образа Р, чем для Н. При использовании сочетания признаков АВ (рис.45) четко различаются 12 из 20 рассматриваемых объектов (восемь имеют одинаковые значения: 1 и 4, 2 и 3, 3 и 2, 4 и 1). В трех мерном пространстве сравниваемые объекты различаются четко все.

Информативность признаков может быть определена через обратную характеристику – неопределенность:



где р – число образов; N – общее число объектов; N1 – общее число объектов, у которых значений і-го признака равно единице; N1 – общее число объектов, у которых значение і-го признака равно нулю; Nij – число объектов j-го образа, у которых значение i-го признака равно единице, Nij – число объектов j-го образа, у которых значение i-го признака равно нулю; Н – неопределенность (для неинформативных признаков Н=1), а также с помощью формулы:

k´=a2(n · m) (9.2)

где k´ - вес признака; а – количество сочетаний признак-руда; n – число появлений признака на оцениваемой территории; m – число рудных объектов (рекомендуется при разбиении территории на клетки определенного размера при снятии информации с карт). Во всех случаях, имея в виду, что информативность – это способность признака сообщать что-то важное об изучаемом, вопрос информативности – неинформативности следует решать с учетом цели исследования.


8.3 Алгоритмы методов распознавания образов

Количество алгоритмов, применяющихся в настоящее время при распознавании, насчитывает несколько сотен. Приведем некоторые, наиболее простые из них, применяющиеся даже при ручном просчете. Метод евклидова расстояния определяет расстояние между неизвестным объектом Р и обобщенной характеристикой образа (таксона) Е по следующей формуле:

,

где - средние значения i-го признака для объектов образа Е; i=1,2,...m. Расстояние между Р и эталоном Н, соответственно определяется по формуле:



Если d(P,E)<d(P,H), то P принадлежит образу E, в противном случае - образу H. При равенстве обеих частей - решение не определено. Значение расстояния d можно использовать в качестве самостоятельного параметра - меры подобия объекта неизвестной природы эталонным объектам. Чем меньше это значение для оцениваемого объекта, тем меньше он отличается от всех характеристик эталонного объекта.
1   2   3   4   5   6   7   8   9   10   11

Схожі:

Т. П. Волкова Математические методы в экологической геологии Учебное пособие iconУчебное пособие по курсу: «логистика» г. Симферополь 2005 г. Скоробогатова Т. Н. Логистика: Учебное пособие: 2-е изд
Учебное пособие представляет собой лекции преподавателя тну, кандидата экономических наук Скоробогатовой Т. Н. и содержит основные...
Т. П. Волкова Математические методы в экологической геологии Учебное пособие iconЕнергетике рекомендовано Министерством образования и науки Украины как учебное пособие для студентов электроэнергетических специальностей высших учебных заведений Харьков 2003
Учебное пособие предназначено для студентов, изучающих курсы: "Применение ЭВМ в электроэнергетике"; "Электрические системы и сети";...
Т. П. Волкова Математические методы в экологической геологии Учебное пособие iconУчебное пособие для студентов высших учебных заведений
Рекомендовано ученым советом Сумского государственного университета как учебное пособие
Т. П. Волкова Математические методы в экологической геологии Учебное пособие iconУчебное пособие Издание третье
А 72 Антипов К. В., Баженов Ю. К. Паблик рилейшнз: Учебное пособие. – 3-е изд., перераб и доп. – М.: Издательский Дом «Дашков и К°»,...
Т. П. Волкова Математические методы в экологической геологии Учебное пособие iconЕ. В. Смирнова пропедевтика внутренних болезней учебное пособие
Настоящее учебное пособие призвано оказать помощь курсантам в овладении основами врачебной деятельности методикой обследования
Т. П. Волкова Математические методы в экологической геологии Учебное пособие iconТ. В. Психология современной семьи. Спб.: Речь, 2005 с. Анцупов А. Я., Баклановский С. В. Конфликтология в схемах и комментариях: Учебное пособие
Анцупов А. Я., Баклановский С. В. Конфликтология в схемах и комментариях: Учебное пособие. 2-е изд., перераб. — Спб.: Питер, 2009....
Т. П. Волкова Математические методы в экологической геологии Учебное пособие iconУчебное пособие под редакцией
Учебное пособие подготовлено коллективом авторов пре­подавателей кафедры документоведения и организации госу­дарственного делопроизводства...
Т. П. Волкова Математические методы в экологической геологии Учебное пособие iconУчебное пособие под редакцией доцента
Учебное пособие'подготовлено коллективом авторов — пре­подавателей кафедры доиу-ментоведения и организации госу­дарственного делопроизводства...
Т. П. Волкова Математические методы в экологической геологии Учебное пособие iconУчебное пособие под редакцией доцента
Учебное пособие'подготовлено коллективом авторов — пре­подавателей кафедры доиу-ментоведения и организации госу­дарственного делопроизводства...
Т. П. Волкова Математические методы в экологической геологии Учебное пособие iconЕ. А. Фокина пути освоения техники гинекологических операций учебное пособие
Учебное пособие предназначено для врачей-интернов, клинических ординаторов, аспирантов и врачей акушеров-гинекологов
Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©zavantag.com 2000-2013
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи