Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи icon

Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи




Скачати 333.12 Kb.
НазваЛекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи
Дата26.10.2012
Розмір333.12 Kb.
ТипЛекція

Лекція 25. Моделі представлення знань та програмні засоби видобуття знань



Моделі представлення знань.

Найбільш поширеними моделями представлення знань є:

  • продукційні системи;

  • логічні моделі;

  • фрейми;

  • семантичні мережі.

Продукційні системи


В продукційних системах знання представляються у вигляді сукупності спеціальних інформаційних одиниць, що мають наступну структуру:

Ім’я продукції: Сфера

Передумова

Умова

Якщо А, то В

Постумова



Приклад продукції:

47: Інтерпретація результатів психологічного тестування

Використати в першу чергу

^ Шкала “обману” L 70 Т-балів

Якщо (шкала F- шкала корекції К) -11, то вивести повідомлення: : Результати тестування невірні”

Закінчити інтерпретацію результатів

З наведеного прикладу видно, як влаштована продукція. При великій кількості продукцій (їх ще називають правилами) сфера дозволяє аналізувати тільки правила, що стосуються справи, не звертаючи увагу на більшість правил з інших сфер. Передумови встановлюють на множині правил з сфери, що цікавить, деякий порядок, приорітет їх використання. Умови визначають можливість використання того чи іншого правила. Ядро продукції “Якщо А, то В”, характеризує перетворення , яке складає зміст продукційного правила. Нарешті постумова говорить про те, що потрібно робити, коли дане продукціонне правило спрацювало.

В загальному випадку продукційна система включає наступні компоненти:

  • базу даних, що містить множину фактів;

  • базу правил, що містить набор продукцій;

  • інтерпретатор (механізм логічного виводу) або правила роботи з продукціями.

База правил та база даних утворюють базу знань. Факти в базі даних представляють собою короткострокову інформацію і в принципі можуть змінюватися в ході роботи продукційної системи по мірі накопичення досвіду. Правила є більш довготривалою інформацією і призначені для визначення гіпотез (нових фактів) з того, що вже відомо.

Подукційні системи поділяються на два типи – з прямими та зворотніми висновками. При прямому висновку роздум ведеться від даних до гіпотез, а при зворотньому виконується пошук доказів або заперечень деякої гіпотези. Часто використовуються комбінації прямого та зворотнього ланцюга роздумів.

Переваги продукцій:

  • модульність;

  • єдність структури (основні компоненти продукційної системи можуть використовуватись для побудови інтелектуальних систем з різноманітною проблемною орієнтацією);

  • природність (вивід висновку в продукційній системі в багато чому аналогічний процесу роздумів експерта);

  • гнучкість родовидової ієрархії понять, яка підтримується тільки як зв’язок між правилами ( зміна правила не тягне за собою змін в ієрархії).

Недоліки продукцій:

  • процес виводу менш ефективний, ніж в інших системах, оскільки більша частина часу при виводі витрачається на неподуктивну перевірку застосованості правил;

  • цей процес важко піддається керуванню;

  • складно представити родовидну ієрархію понять.

Представлення знань за допомогою продукцій називають іноді “плоским”, так як в продукційних системах відсутні засоби для встановлення ієрархії правил. Об’єм бази знань продукційних систем росте лінійно, по мірі включення в неї нових фрагментів знань, в той час як в традиційних алгоритмічних системах, що використовують дерева рішень, залежність між об’єктом бази знань та кількістю власне знань є логарифмічною.
^

Логічні моделі


Логічні моделі представлення знань реалізуються засобами логики предикатів.

Предикатом називається функція, що приймає тільки два значення – істина та неправда – і призначена для виразу властивостей об’єктів або зв’язків між ними. Вираз, в якому стверджується або не стверджується наявність яких-небудь властивостей у об’єкта, називається висказуванням.

Константи служать для іменування об’єктів предметної області. Логічні речення або висказування утворюють атомарні формули. Інтерпретація предиката – це множина всіх допустимих зв’язувань змінних з константами. Зв’язування представляє собою підстановку констант замість змінних. Предикат вважається загальнозначущим, якщо він істинний на всіх можливих інтерпретаціях. Кажуть, що висказування логічно випливає із заданих посилань, якщо воно істинне завжди, коли істинні посилки.

Найбільш постою мовою логіки є счислення висказувань, в якому відсутні змінні. Будь-якому висказуванню можна приписати значення істина або неправда. Окремі висказування можуть з’єднуватись зв’язками І, АБО, НІ, які називаються булевими операторами. Основи счислень висказувань складають правила утворення складних висказувань з атомарних.В якості прикладів складних (складених) висказувань можна привести наступні:

^ А – істина і В –неправда.

А і В неправда.

А і В істина.

Тут змінні означають логічні висказування, про які можна сказати, що вони істина або неправда. Логічні оператори є в більшості мов пограмування. Однак счислення висказувань – недостатньо виразний засіб для обробки знань, оскільки в ньому не можуть бути представлені речення, що включають змінні з кванторами.

Счислення предикатів з кванторами (логіка предикатів) є розширенням счислення висказувань, в якому для виразу відношень між об’єктами предметної області можуть використовуватися речення, що включають не тільки константи, але й змінні.

В загальному випадку моделі, засновані на логіці предикатів, описуються формальною системою, яка задається четвіркою:

М=(Т, Р, А, П),

Де: Т – множина базових елементів або алфавіт формальної системи;

Р – множина синтаксичних правил, за допомогою яких можна побудувати синтаксичні коректні речення;

А – множина аксіом або деяких синтаксичних правильних речень, заданих апріорно;

П – правила продукцій ( правила виводу або семантичні правила), за допомогою яких можна розширяти множину А, додаючи в неї синтаксично правильні речення.

Головні переваги логічних моделей представлення знань полягає у можливості безпосередньо запрограмувати механізм виводу синтаксично правильних висказувань. Прикладом такого механізму може бути процедура виводу, побудована на методі резолюцій. Однак з допомогою правил, що задають синтаксис мови, неможливо встановити істинність або неправду того чи іншого висказування. Причому це поширюється на всі мови. Висказування може бути побудовано синтаксично правильно, але бути зовсім беззмістовним.

Фрейми


Фрейм частіше за все визначають як структуру даних для представлення стереотипних ситуацій. Модель представлення знань на основі фреймів використовує концепцію організації пам’яті, розуміння та навчання людини, запропоновану М.Мінським (1997). Фрейм (дослівно – “рамка”) – це одиниця представлення знань, деталі якої можуть змінюватись з поточною ситуацією. Фрейм у будь-який момент може бути доповнений різноманітною інформацією, що стосується способів застосування даного фрейма, наслідків цього застосування та інше.

Структура фрейма складається з характеристик стереотипної ситуації , що описується, та їх значень, які називаються відповідно, слотами та заповнювачами слотів.

Ім’я фрейма: І’мя першого слота. значення першого слота

І’мя другого слота. значення другого слота

…………………….

…………………….

І’мя К-ого слота. значення К-ого слота

Незаповнений фрейм називається протофреймом, а заповнений – екзофреймом. Роль протофрейма як оболонки в екзофреймі особливо важлива. Ця оболонка дозволяє виконувати процедуру внутрішньої інтерпретації, завдяки якій в пам’яті системи не беззмістовні, а мають доволі визначений, відомий системі зміст.

Слот може містити не тільки конкретне значення, але й ім’я процедури, що дозволяє вираховувати його за заданим алгоритмом, а також одну або декілька продукцій (евристик), за допомогою яких це значення визначається. В слот може входити не одне, а декілька значень. Іноді цей слот включає компонент, що називається фасетом, який задає діапазон або перелік його можливих значень. Фасет вказує також граничні значення заповнювача слота.

Крім конкретного значення в слоті можуть зберігатися процедури та правила, які визиваються при необхідності визначення цього значення. Серед них виділяють процедури-демони та процедури-слуги. Перші запускаються автоматично при виконанні деякої умови, а другі активізуються тільки по спеціальному запиту. Якщо, наприклад, фрейм, що описує людину, включає слоти ДАТА НАРОДЖЕННЯ та ВІК і в першому з них знаходиться деяке значення, то у другому слоті може стояти ім’я процедури-демона, що обчислює вік за датою народження та поточною датою і активізується при кожній зміні поточної дати.

Сукупність фреймів, що моделюють яку-небудь предметну область, представляє собою ієрархічну структуру, в якій фрейми збираються за допомогою родовидових зв’язків. На верхньому рівні ієрархії знаходиться фрейм, що містить найбільш загальну інформацію для решти фреймів. Фрейми мають здатність наслідувати значення характеристик своїх батьків, що знаходяться на більш високому рівні ієрархії. Ці значення можуть передаватися за замовчуванням фреймам, що знаходяться нижче в них в ієрархії, але якщо останні містять власні значення даних характеристик, то в якості істинних приймаються саме ті значення. Ця обставина дозволяє без ускладнень враховувати у фреймових системах різного роду виключення.

Розрізняють статичні та динамічні системи фреймів. В системах першого типу фрейми не можуть бути змінені в процесі розв’язання задачі, а в системах другого типу це допустимо.

Про системи засновані на фреймах, кажуть, що вони є об’єктно-орієнтовані. Кожен фрейм відповідає деякому об’єкту предметної області, а слоти містять дані, що описують цей об’єкт, тобто в слотах знаходяться значення ознак об’єктів. Фрейм може бути представлений у вигляді списку властивостей, а якщо використати засоби бази даних, то у вигляді запису.

Найбільш яскраво переваги фреймових систем представлення знань появляються в тому випадку, якщо родовидові зв’язки змінюються нечасто і предметна область нараховує небагато виключень. У фреймових системах дані про родовиди зберігаються явно, як і знання інших типів. Значення слотів представляються в системі в єдиному екземплярі, оскільки включаються тільки в один фрейм, що описує найбільш загальні поняття з усіх тих, які містить слот з даним ім’ям. Така властивість систем фреймів забезпечує економне розміщення бази знань в пам’яті комп’ютера. Ще одна перевага фреймів полягає в тому, що значення будь-якого слота буде вираховано за допомогою відповідних процедур або знайдено евристичними методами. Тобто фрейми дозволяють маніпулювати як декларативними, так і процедурними знаннями.

До недоліків фреймових систем відносять їх відносно високу складність, що проявляється у зниженні швидкості роботи механізму виводу та збільшення трудомісткості внесення змін в родовидову ієрархію. Тому більше уваги при розробці фреймових систем приділяють демонстративним способам відображення та ефективним засобам редагування фреймових структур.
^

Семантичні мережі


Семантична мережа описує знання у вигляді мережевих структур. В якості вершин мережі виступають поняття, факти, об’єкти, події та інше, а в якості дуг мережі – відношення, якими пов’язані вершини між собою.

Семантичні мережі часто розглядають як загальний формалізм для представлення знань. Частковим випадком таких мереж є сценарії, в яких в якості відношень виступають казуальні відношення або відношення типу «мета – засоби».

Вершини мережі з’єднуються дугою, якщо відповідні об’єкти предметної області знаходяться в якому-небудь відношенні.

Найбільш поширеними типами відношень є:

^ БУТИ ЕЛЕМЕНТОМ КЛАСА – означає, що об’єкт входить в склад даного класа;

МАТИ – дозволяє задавати властивості об’єктів;

Е НАСЛІДКОМ – відображає причинно-наслідкові зв’язки;

^ МАТИ ЗНАЧЕННЯ – задає значення двох об’єктів.

Як і в системі заснованій на фреймах, в семантичній мережі можуть бути представлені родовидові відношення, які дозволяють реалізовувати наслідування властивостей від об’єктів – батьків. Ця обставина призводить до того, що семантичні мережі набувають всі недоліки та переваги представлення знань у вигляді фреймів. Переваги полягають у простоті та демонстративності опису предметної області. Однак остання властивість з ускладненням семантичної мережі втрачається, крім того, суттєво збільшується час виводу. Також до недоліків семантичних мереж відносять складність обробки різного роду виключень.
^

Інші методи представлення знань


З інших методів представлення знань популярністю користується представлення знань по прикладам. Працюючи з системою такого типу, користувач задає їй декілька прикладів розв’язків задач з актуальної предметної області. На основі цих прикладів система самостійно будує базу знань, яка потім використовується для рішення інших задач. При створенні бази знань користувач має можливість у будь-який момент викликати на екран дисплея матрицю, що складається з прикладів задач та їх розв’язків, для того щоб встановити в ній наявність пустих місць, які необхідно заповнити прикладами “задача – рішення”, яких не вистачає.

Знання в такій системі можуть зберігатися в різноманітних формах. Це може бути, наприклад, інтенсіональна форма, коли користувач вводить в систему правила операції з атрибутами об’єктів предметної області, що приводять до необхідного рішення. Також це може бути екстенціональна форма, при якій кожен приклад детально описується користувачем і представляється в пам’яті комп’ютера у вигляді сукупності значень виділених атрибутів. Можлива комбінація і тої, і іншої форм. В результаті отримується матриця прикладів, яка може бути розширена лише шляхом коректування прикладів, що містяться в матриці, або їх додаванням.

Основною перевагою представлення знань по прикладам є простота даного способу, оскільки користувач може не мати жодного представлення про подукційні правила, счислення пердикатів, фрейми та семантичні мережі. Разом з тим в якості недоліків метода представлення знань по прикладам відмічають відсутність гнучкості процесу побудови інтелектуальної системи. Користувач виявляється віддаленим від власноруч створеної бази знань і тому не може контролювати зв’язки між поняттями, що в ній містіться.

Вибір способу представлення знань виконується інженером по знанням після того, як ним досягнуто розуміння природи даних області, що моделюється. При розв’язку складних задач, коли джерела знань розрізняються по типам, представлення таких знань вимагає використання різних способів (змішане представлення). Тоді для продуктивного функціонування інтелектуальної системи нерідко застосовують принцип дошки об’яв, за допомогою якої реалізується взаємодія незалежних джерел знань.
^

Програмне забезпечення, що використовується при розв’язанні проблеми видобуття знань.

Scenario – пакет, що виявляє взаємозв’язок в даних


На основі узагальнення досвіду застосування технології OLAP була розроблена методика її використання в різноманітних сферах бізнесу.

Система Scenario призначена для виявлення взаємозв'язків в даних. Інформація, що аналізується, представляється у вигляді таблиць, стовпчикам яких відповідають фактори (змінні), що описують предметну область, причому один з цих стовпчиків виділяється користувачем як цільовий показник. Маючи точне відомості про те, в який степені окремі фактори (тип клієнта, канал розповсюдження продукції, затрати на рекламу і ін.) впливають на цільовий показник (обсяг продажів), менеджери можуть оптимізувати рішення по розміщенню ресурсів для забезпечення максимального прибутку. Scenario фокусує увагу аналітиків на показниках і факторах, що вимірюються, що дозволяє їм переходити від якісних міркувань до побудови більш точних кількісних моделей.

В Scenario реалізоване автоматичне виявлення залежностей по критерію -квадрат (метод CHAID) для знаходження однорідних груп (сегментів) даних з «аналогічною» поведінкою відносно цільового показника. Система використовує метод дерев рішень і будує правила класифікації, що можна застосовувати до нових даних для побудови прогнозів відносно можливих значень цільового показника. Хоча ядром системи є методи статистики, від користувача не вимагається спеціальних знань в цій області Основна статистична інформація відображається інтуітивно методами зрозумілої графіки, а більш детальні відомості користувач в випадку необхідності може запросити сам. Власне методи Інтелектуального Аналізу Даних (ІАД) є лише основою для реалізації типових видів аналізу, що використовуються аналітиками і особами, що приймають рішення в бізнесі.

Оскільки процес ІАД майже завжди вимагає значних затрат часу і обчислювальних ресурсів, в Scenario реалізовані три стратегії аналізу.

1.Для проведення швидкого початкового аналізу задачі, відсіву незначних факторів і фокусування уваги на ключових параметрах рекомендується використати режим дослідження. Цей режим дозволяє вигравати в часі за рахунок деякого зниження точності результатів. Оскільки в подальшому припускається проведення більш детального аналізу, вимоги до надійності не висуваються. Розмір вибірки не обмежується.

2.Більш точний аналіз може бути проведений в режимі тестування. Використання цього режиму забезпечує дуже високу точність і достатню надійність результатів. Для його проведення вимагається не менше 300 записів в базі даних.

3.Найкращі по точності і надійності результати можна отримати в режимі верифікації. Цей режим, що вимагає не менше 1000 записів, рекомендується використати для перевірки і уточнення результатів, отриманих в ході тестування.
^

Oracle Data Mining Suite – система знаходження закономірностей та побудови моделей передбачення


Комплект Oracle Data Mining Suite - це програмний продукт Data Mining, що дає легкість використання і багату функціональність для вирішення складних проблем. Oracle Data Mining Suite знаходить приховані закономірності в даних, будує моделі передбачення і розміщує свої “передбачення” та “інтуіції” в базу даних для використання іншими прикладними програмами і користувачами.

Oracle Data Mining Suite - це “виробник” цінної нової інформації для інших “споживачів” даної організації. Data Mining Suite надає легкий в використанні, інтуітивно зрозумілий користувачеві інтерфейс. Oracle Data Mining Suite пропонує майстер-утиліти для спрощення і автоматизації кроків Data Mining. Наприклад, майстер Key Fields в Oracle Data Mining Suite автоматично знаходить змінні, що найбільш потрібні (максимально впливають) при рішенні деякого конкретного питання. Майстер Model Seeker автоматично будує більшість моделей Data Mining, показує інтерактивні графи і таблиці результатів, а також рекомендує найкращі моделі.

Oracle Data Mining Suite пропонує всю цю функціональність в дружньому користувачеві середовищі, яку бізнес-аналітики можуть використати, причому вони можуть використати потужні, можливо, багатопроцесорні (SMP) системи і, завдяки цьому, зможуть “видобувати” величезні масиви даних і витягати більше цінної інформації. Data Mining Suite може одержувати дані з різноманітних мережевих джерел даних. Oracle Data Mining Suite транспортує інформацію з баз даних Oracle, використовуючи технологію прямого доступу до даних Oracle (OCI).

На фазі побудови моделей Oracle Data Mining Suite надає безліч алгоритмів: C&RT дерева, класифікація і регресія, дерева рішень, нейронні мережі, алгоритм знаходження найближчих k сусідів і кластеризація.
^

Oracle Darwin Data Mining Suite


У склад лінійки продуктів Oracle 9i входит инструментальная среда класса "data mining" под названием Darwin.

Інструментальне середовище Darwin призначене для аналізу даних методами, що належать до технології "data mining" (видобуття знань). Основне завдання технології видобуття знань полягає у виявленні у великих наборах даних прихованих закономірностей, залежностей і взаємозв'язків, корисних при прийнятті рішень на різних рівнях керування. Такі закономірності представляються у вигляді моделей різного типу, що дозволяють проводити класифікацію ситуацій або об'єктів, прогнозувати їхню поведінку, виявляти групи подібних об'єктів і т.п. Моделі будуються автоматично на основі аналізу наявних даних про об'єкти, спостереження й ситуації за допомогою спеціальних алгоритмів.

Darwin підтримує всі етапи технології видобуття знань, включаючи постановку задачі, підготовку даних, автоматичну побудову моделей, аналіз і тестування результатів, використання моделей у реальних додатках.

На етапі підготовки даних забезпечується доступ до будь-яких реляційних баз даних, текстових файлів, SAS-файлам. Додаткові засоби перетворення й очищення даних дозволяють змінювати вид представлення, проводити нормалізацію значень, виявляти невизначені або відсутні значення. На основі підготовлених даних спеціальні процедури автоматично будують різні моделі для подальшого прогнозування, класифікації нових ситуацій, виявлення аналогій. Darwin підтримує побудову п'яти різних типів моделей - нейронні мережі, класифікаційні й регресійні дерева рішень, найближчі k-околиці, байєсівське навчання й кластеризацію.

Розвинені графічні засоби надають широкі можливості для аналізу отриманих результатів, верифікації моделей на тестових наборах даних, оцінки точності й стабільності результатів. Уточнені й перевірені моделі можна включати в існуючі додатки шляхом генерації їх описів на С, C++, Java, а також розробляти нові спеціалізовані додатки за допомогою середовища розробки (SDK), що входить до складу Darwin.

Важливою особливістю системи Darwin, що виділяє його серед інших засобів видобуття знань, є його технічні характеристики: робота в архітектурі "клієнт-сервер", широке використання техніки паралельних обчислень, високий ступінь масштабованості при збільшенні обчислювальних ресурсів. Усе це дозволяє виконувати процедури автоматичного аналізу даних величезних обсягів, досягаючи дуже високих часових показників.
^

WizWhy - система пошуку логічних правив в даних


Система WizWhy фірми WizSoft (http://www. wizsoft. com) є сучасним представником підходу, що реалізує обмежений перебор. Хоча автори системи не розкривають специфіку алгоритму, покладеного в основу роботи WizWhy, висновок про наявність тут обмеженого перебору був зроблений по результатах ретельного тестування системи (вивчалися результати, залежності часу їхнього отримання від числа параметрів, що аналізуються тощо). Щоправда, в WizWhy обмежений перебор використовується в варіанті, що модифікувався з застосуванням додаткового алгоритму «Apriori», що виключає з аналізу логічні події з низькою частотою.

Алгоритми обмеженого перебору були запропоновані в середині 60-х років M. M. Бонгардом для пошуку логічних закономірностей в даних. Відтоді вони продемонстрували свою ефективність при розв’язку безлічі задач з різноманітних областей.

Ці алгоритми обчислюють частоти комбінацій простих логічних подій в підгрупах даних. Приклади простих логічних подій:

Х = а; Х < а; Х > а; а < Х < b , де Х - будь-який параметр, а і b - константи. Обмеженням є довжина комбінації простих логічних подій . На основі аналізу обчислених частот робиться висновок про корисність тієї або інший комбінації для встановлення асоціації в даних, для класифікації, прогнозування тощо.

Автори системи WizWhy стверджують, що вона автоматично видобуває з даних всі if-then-правила. Насправді це, звичайно, не так. По-перше, максимальна довжина комбінації в правилі if-then в системі WizWhy рівна 6, і, по-друге, з самого початку роботи алгоритму виконується евристичний пошук простих логічних подій, на яких потім будується весь подальший аналіз. Тим не менше, система WizWhy є на сьогодні одним з лідерів на ринку продуктів Data Mining. Система демонструє більш високі показники при рішенні ряду практичних задач, ніж всі інші алгоритми. Вартість системи біля $4000, кількість користувачів близько 30 000. Демонстраційна версія WizWhy обмежена тільки кількістю записів, що аналізуються - 1000 об'єктів.

Автори WizWhy акцентують увагу на наступних загальних властивостях системи:

  • виявлення ВСІХ if-then-правил;

  • обчислення імовірності помилки для кожного правила;

  • визначення найкращої сегментації числових змінних;

  • обчислення прогностичної сили кожної ознаки;

  • узагальнення отриманих правил і залежностей;

  • виявлення незвичайних феноменів в даних;

  • використання виявлених правил для прогнозування;

  • вираження прогнозу у вигляді списку релевантних правил;

  • обчислення помилки прогнозу;

  • прогноз з урахуванням вартості помилок.

В якості переваг WizWhy додатково відзначають такі:

  • на прогнози системи не впливають суб'єктивні причини;

  • користувачам системи не потрібно спеціальних знань в прикладній статистиці;

  • більш точні і швидкі обчислення, ніж у інших засобів Data Mining.

Для більшої переконливості автори WizWhy протиставляють свою систему нейромережевому підходу і алгоритмам побудови дерев рішень і ствержують, що WizWhy, володіючи більш високими характеристиками, витісняє інші програмні продукти з ринку Data Mining.
^

Приклад використання системи WisWhy на практиці

Визначення причин неврожайності сільськогосподарських ділянок. Вхідні дані.


На 43 дослідних ділянках по вирощуванню рису було отримано різний врожай. Агротехніка вирощування культури характеризувалася настуними ознаками:

Х1 – попередник ( в балах);

Х2 – кількість добрив (ц на 1 га);

Х3 – прополювання (раз);

Х4 – число днів від заливання до збросу води;

Х5 – число днів від косовиці до обмолоту.

Експериментальні дані представлені в таблиці.


Таблиця. Значення ознак для ділянок з різною врожайністю рису

№ п/п

Врожай-ність,

ц с 1 га

Поперед-ник, бали

Кіл-ть добрив, ц на 1 га

Пропо-лювання

Раз

Число днів від заливання до збросу води

Число днів від косо-виці до обмоло-ту




Y

Х1

Х2

Х3

Х4

Х5

Група 1

1

36

2,8

1,47

1,2

115

8

2

36,1

3

1,23

1,3

117

7

3

35,1

2,7

1,31

1,4

114

9

4

36,2

3

1,5

1,5

119

10

5

36,4

3,2

1,14

1,6

120

7

6

36,9

2,8

1,22

1,6

121

11

7

37,5

2,7

1,3

1,3

122

8

8

37,8

3,3

1,24

1,3

118

10

9

38,2

2,8

1,16

1,9

119

7

10

38,6

2,7

1,22

1,6

117

9

11

38,9

2,8

1,35

1,2

119

10

12

39

2,9

1,4

1,4

115

8

13

39

3,1

1,36

1,3

120

11

14

39,2

2,8

1,23

1,6

114

10

15

39,4

2,7

1,3

1,4

118

9

16

39,5

3

1,41

1,3

117

8

17

39,7

2,9

1,28

1,4

120

12

18

39,7

3,1

1,36

1,2

121

9

19

39,8

2,8

1,32

1,4

118

7

20

40

2,9

1,4

1,5

118

10

Група 2

21

41,2

3,2

1,05

1,5

109

9

22

41,2

2,8

1,1

1,2

108

10

23

41,6

2,9

1,2

1,6

118

10

24

41,8

3

1,12

1,3

110

14

25

41,9

3,3

1,08

1,4

112

12

26

41,2

2,7

1,13

1,5

111

15

27

41,5

3

1,18

1,7

112

12

28

42,8

3,1

1,22

1,3

113

14

29

43,1

3,3

1,25

1,8

112

13

30

43,1

2,9

1,1

1,7

113

10

31

43,2

2,8

1,2

1,8

112

15

32

43,6

3,2

1,26

1,6

113

9

33

43,7

3,4

1,28

1,8

110

12

34

43,8

3,5

1,22

1,9

114

13

35

43,8

3

1,19

1,7

108

16

36

43,9

2,8

1,29

1,7

108

12

37

43,0

2,9

1,24

1,6

112

10

38

44,2

3

1,17

1,8

114

9

39

44,6

3,3

1,25

1,3

115

11

40

44,8

3,4

1,27

1,7

112

12

41

44,9

3,5

1,26

1,5

111

14

42

44,9

3,1

1,3

1,5

119

11

43

45

3,2

1,24

1,6

110

13


Нижче наведено звіт системи WizWhy для наступних встановлених пара­метрів пошуку логічних правил в експериментальних даних:

  • Цільова змінна — врожай.

  • Мінімальна імовірність if-then-правила — 0,7.

  • Мінімальна імовірність if-then-NOT-правила — 0,7.

  • Мінімальна кількість об’єктів, що покриваються правилом — 10.

Отримана система 17 логічних правил має наступні характеристики:

  • Імовірність правильного передбачення високого врожаю (більше 40,93 ц/га) – 0,917;

  • імовірність правильного передбачення низького врожаю (менше 40,93 ц/га) – 0,947.
^

Список отриманих правил


  1. ЯКЩО Днів від заливання до збросу води становить від 108 до 113

ТО Врожай - більше ніж 40,93 ц/га

  1. ЯКЩО Попередник має від 2,70 до 2,80 балів

та Днів від заливання до збросу води становить від 114 до 122

ТО Врожай - не більше ніж 40,93 ц/га

  1. ЯКЩО кількість добрив становить від 1,28 до 1,47 ц/га

та Прополювання становить від 1,20 до 1,40 балів

ТО Врожай - не більше ніж 40,93 ц/га

  1. ЯКЩО Кількість добрив становить від 1,28 до 1,47 ц/га

та Днів від заливання до збросу води становить від 114 до 122

ТО Врожай - не більше ніж 40,93 ц/га

  1. ЯКЩО Прополювання має від 1,20 д 1,40 балів

та Днів від заливання до збросу води становить від 114 до 122

ТО Врожай - не більше ніж 40,93 ц/га

  1. ЯКЩО Днів від заливання до збросу води становить від 114 до 122

та Днів від косовиці до обмолоту становить від 7,00 до 9,00

ТО Врожай - не більше ніж 40,93 ц/га

  1. ЯКЩО Днів від заливання до збросу води становить від 114 до 122

ТО Врожай - не більше ніж 40,93 ц/га

  1. ЯКЩО Кількість добрив становить від 1,28 до 1,50

ТО Врожай - не більше ніж 40,93 ц/га

  1. ЯКЩО Днів від косовиці до обмолоту становить від 7,00 до 9,00

ТО Врожай - не більше ніж 40,93 ц/га

  1. ЯКЩО Кількість добрив становить від 1,08 до 1,27

та Днів від косовиці до обмолоту становить від 10,00 до 16,00

ТО Врожай - більше ніж 40,93 ц/га

  1. ЯКЩО Попередник має від 3,20 до 3,50 балів

ТО Врожай - більше ніж 40,93 ц/га

  1. ЯКЩО Прополювання має від 1,50 до 1,90

та Днів від косовиці до обмолоту становить 10,00 до 16,00

ТО Врожай - більше ніж 40,93 ц/га

  1. ЯКЩО Попередник має від 2,70 до 2,80 балів

ТО Врожай - не більше ніж 40,93 ц/га

  1. ЯКЩО Прополювання має від 1,20 до 1,40 балів

ТО Врожай - не більше ніж 40,93 ц/га

  1. ЯКЩО Кількість добрив становить від 1,05 до 1,27 ц/га

ТО Врожай - більше ніж 40,93 ц/га

  1. ЯКЩО Прополювання має від 1,50 до 1, 90 балів

ТО Врожай - більше ніж 40,93 ц/га

  1. ЯКЩО Днів від косовиці до обмолоту становить від 10,00 до 16,00

ТО Врожай - більше ніж 40,93 ц/га

Фактично отримані правила представляють собою інструкцію для агротехніка із зазначенням конкретних значень факторів та їх комбінацій, що впливають на врожайність рисових ділянок. Це доволі серйозна та довга інструкція, але інакше майже неможливо описати складну систему багатофакторної взаємодії із задовільною точністю.

Резюме

Найбільш поширеними моделями представлення знань є: продукційні системи; логічні моделі; фрейми; семантичні мережі.

В продукційних системах знання представляються у вигляді сукупності спеціальних інформаційних одиниць. В загальному випадку продукційна система включає наступні компоненти: базу даних, що містить множину фактів; базу правил, що містить набор продукцій; інтерпретатор (механізм логічного виводу) або правила роботи з продукціями.

Логічні моделі представлення знань реалізуються засобами логики предикатів. Предикатом називається функція, що приймає тільки два значення – істина та неправда – і призначена для виразу властивостей об’єктів або зв’язків між ними.

Фрейм частіше за все визначають як структуру даних для представлення стереотипних ситуацій. Модель представлення знань на основі фреймів використовує концепцію організації пам’яті, розуміння та навчання людини. Фрейм – це одиниця представлення знань, деталі якої можуть змінюватись з поточною ситуацією. Фрейм у будь-який момент може бути доповнений різноманітною інформацією, що стосується способів застосування даного фрейма, наслідків цього застосування та інше.

Семантична мережа описує знання у вигляді мережевих структур. В якості вершин мережі виступають поняття, факти, об’єкти, події та інше, а в якості дуг мережі – відношення, якими пов’язані вершини між собою. Семантичні мережі часто розглядають як загальний формалізм для представлення знань.

З інших методів представлення знань популярністю користується представлення знань по прикладам. Працюючи з системою такого типу, користувач задає їй декілька прикладів розв’язків задач з актуальної предметної області. На основі цих прикладів система самостійно будує базу знань, яка потім використовується для рішення інших задач.
^

Сьогодні розроблена велика кількість програмного забезпечення, що використовується при розв’язанні проблеми видобуття знань. Ось деякі з них:

Scenario – пакет, що виявляє взаємозв’язок в даних

Oracle Data Mining Suite – система знаходження закономірностей та побудови моделей передбачення


Oracle Darwin Data Mining Suite призначений для аналізу даних методами, що належать до технології "Data Mining". Darwin підтримує всі етапи технології видобуття знань, включаючи постановку задачі, підготовку даних, автоматичну побудову моделей, аналіз і тестування результатів, використання моделей у реальних додатках.

WizWhy - система пошуку логічних правив в даних.

Питання для самоперевірки


1. Назвіть найбільш поширені моделі представлення знань

2. Наведіть основні характеристики продукційних систем

3. Наведіть основні характеристики логічних моделей

4. Наведіть основні характеристики фреймів

5. Наведіть основні характеристики семантичних мереж

Схожі:

Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи iconЛекція 24. Моделі І методи видобуття знань (DataMining) Загальні положення Більшість організацій накопичують за час своєї діяльності величезні обсяги даних, але єдине що вони хочуть
Вона використовує складний статистичний аналіз І моделювання для знаходження моделей І відношень, прихованих в базі даних, для видобуття...
Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи iconМоделі представлення знань про предметну галузь технічних дисциплін постановка проблеми
Аналіз останніх досліджень і публікацій. Теоретичне підґрунтя цієї роботи складали науково-практичні дослідження М.І. Лазарєва [1;...
Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи iconСистема моделей представлення знань з комп’ютерної підготовки інженерів-технологів фармацевтичних виробництв постановка проблеми
Система моделей представлення знань з комп’ютерної підготовки інженерів-технологів фармацевтичних виробництв
Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи icon«інформаційні технології в охороні довкілля»
Модуль – «Програмні засоби для обробки екологічної інформації. Засоби представлення та отримання інформації»
Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи iconІнформації про пг, яка зберігається в базі знань інтелектуальної системи; про мову подання знань, мову для побудови інтелектуальної системи (ІС), мову специфікацій мову меню; про систему
При аналізі знань виділяють знання і способи подання знань. Саме знання поділяють на дві категорії: галузь знань і види знань
Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи iconО. С. Джураєва Рецензент: д т. н., проф. Ф. В. Стольберг Рекомендовано кафедрою Інженерної екології міст, протокол №1 від 04. 09. 09 р
«Програмні засоби для обробки екологічної інформації. Засоби представлення та отримання інформації»
Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи iconФорми представлення моделей
Алгоритмічна форма – це запис співвідношень моделі й обраного чисельного методу вирішення у формі алгоритму
Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи iconТема 1: «Представлення інформації у комп’ютері. Алгоритми роботи з цілими числами у різних системах числення», 4 години Зміст навчального матеріалу теми
Представлення у комп’ютері цілих та дійсних чисел, символів та рядків; алгоритм переведення чисел з однієї позиційної системи числення...
Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи iconКонспект лекцій курсу "Математичне моделювання у світлотехніці"
Разом з цим, у конспекті відбиті поняття математичної моделі, ієрархії математичних моделей, форми представлення моделей І багато...
Лекція 25. Моделі представлення знань та програмні засоби видобуття знань Моделі представлення знань. Найбільш поширеними моделями представлення знань є: продукційні системи iconМенеджмент зед карта самостійної роботи та критерії оцінки знань студента
Оцінювання знань студентів з дисципліни здійснюється на основі результатів поточного і підсумкового контролю знань
Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©zavantag.com 2000-2013
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи