Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій icon

Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій




Скачати 38.21 Kb.
НазваУдк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій
Піскунов Д.М
Дата30.06.2013
Розмір38.21 Kb.
ТипДокументи

УДК 004.822

СИСТЕМА ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ МАСИВІВ АВТОРЕФЕРАТІВ ДИСЕРТАЦІЙ


Піскунов Д.М., Сидоренко В.М.

Кременчуцький національний університет імені Михайла Остроградського


Швидкий ріст обсягу інформації, що міститься як в Інтернеті, так і в корпоративних мережах, є причиною все більш і більш зростаючих труднощів пошуку необхідних документів та організації їх у вигляді структурованих за змістом сховищ [1]. При цьому більшість технологій роботи з текстовими документами орієнтовані на організацію зручної роботи з інформацією для людини, але практично відсутні можливості для передачі смислового змісту тексту, тобто відсутнє семантичне індексування, а неструктурована інформація становить значну частину сучасних електронних текстових документів. Допомогти у вирішенні даних проблем здатні програмні системи, які автоматично виконують інтелектуальну обробку даних. Оскільки автореферати дисертацій відносяться до неструктурованих текстових документів, а також існує потреба в їх аналізі у межах заданої спеціальності, то існує цілком актуальна задача покращення показників процесу автоматичного пошуку та аналізу великих масивів авторефератів за рахунок вилучення прихованих нетривіальних знань.

Автори пропонують підхід, який не тільки забезпечує при мінімальному втручанні користувача можливість розбиття великого масиву авторефератів певної спеціальності на кластери, але й, на відміну від відомих, виконує автоматичну персоніфікацію отриманих сегментів.

На сьогоднішній день існує декілька інструментів аналізу текстової інформації. Найбільш відомі з них – це Oracle Text (розробник – Oracle), Intelligent Miner for Text (розробник – IBM) та SAS Text Miner (розробник – SAS Institute) [2].

Треба зауважити, що кожна з вище названих програмних систем вирішує тільки одну або декілька задач технології Text Mining, причому ці рішення є узагальненими для текстової інформації з різних галузей. Тому запропонована система є більш орієнтованою на конкретну проблемну галузь – великий масив авторефератів. Це передбачає адаптацію алгоритмів технології Text Mining для роботи з текстовими документами, структура яких відома заздалегідь, що дозволить підвищити ефективність процесу кластеризації масиву авторефератів у межах заданої спеціальності та процесу автоматичної персоніфікації цих кластерів.

Структура системи інтелектуального аналізу авторефератів складається з наступних підсистем (Рисунок):

Підсистема пошуку інформації. Виконує процес ідентифікації авторефератів, що повинні бути піддані подальшому аналізу, і забезпечує їх доступність.

Підсистема обробки інформації. Забезпечує попередню обробку документів з авторефератами за допомогою виконання чотирьох процесів:

  • процес видалення стоп-слів – стоп-словами називаються слова, які є допоміжними і несуть мало інформації про зміст автореферату дисертації;

  • процес стемінгу слів – полягає в перетворенні кожного слова в його нормальну форму;

  • процес приведення регістру слів – перетворення всіх символів у верхній або в нижній регістр;

  • процес формування інформаційно-пошукових образів авторефератів.

Підсистема вилучення прихованих знань. Дана підсистема, в свою чергу, складається ще з двох підсистем: підсистеми застосування методів Text Mining та підсистеми візуалізації результатів.

Підсистема застосування методів Text Mining виконує такі процеси:

  • за допомогою процесу кластеризації вибраних документів з авторефератами, відбувається витяг інформації, що передбачає виділення в цих авторефератах ключових понять, які в подальшому будуть піддані аналізу;

  • процес персоніфікації кластерів авторефератів, котрий полягає у формуванні короткого опису основних тем цих кластерів, тобто виконується витяг найбільш важливих відомостей з тих авторефератів, що входять у заданий кластер;

  • виконання процесу пошуку шаблонів у кластерах авторефератів – вилучення з отриманих кластерів авторефератів інформації певного типу.

Підсистема інтерпретації результатів. Як правило, інтерпретація полягає в поданні результатів природною мовою та/або в їх графічній візуалізації. Для цього здійснюється витяг ключових понять, які і представляються в графічному вигляді. Такий підхід допомагає користувачу швидко ідентифікувати головні теми і поняття, а також визначити їх важливість.



Рис. 1 – Структура системи інтелектуального аналізу авторефератів

Висновки

Таким чином, у порівнянні з іншими програмними комплексами для вирішення задач Text Mining, дана система орієнтована на розв’язок задач конкретної проблемної області, яка пов’язана з авторефератами дисертаційних робіт і, яка на відміну від відомих підходів, забезпечує автоматичну персоніфікацію знайдених сегментів. Такий підхід дозволить суттєво скоротити час науковцям на пошук і систематизацію певної групи робіт, виділити напрями, що були «мейнстримом» у ті, чи інші періоди, ідентифікувати наукові школи і їх особливості і т. ін.


ЛІТЕРАТУРА

  1. Freeman R. T., Yin H. Adaptive topological tree structure for document organisation and visualisation // Neural Networks. Elsevier Science Ltd. – Vol. 17. – 1255–1271. – 2004.

  2. Джонс М. Т., Программирование искусственного интеллекта в приложениях / М. Тим Джонс; Пер. с англ. Осипов А. И. – М.: ДМК Пресс, 2004. – 312 с.: ил.

Схожі:

Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій iconОсновні вимоги до дисертацій та авторефератів дисертацій загальні положення
move to 0-3488812
Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій iconВимоги до оформлення дисертацій та авторефератів дисертацій
Дисертація на здобуття наукового ступеня кандидата (доктора)
Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій iconУдк 004. 822 Анализ методов извлечения знаний из нейронных сетей
В связи с этим актуальной становится задача извлечения из нейронной сети логической зависимости между её входными и выходными параметрами,...
Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій iconОсновні вимоги до дисертацій та авторефератів дисертацій загальні положення
України. Таким стандартом є дсту 3008-95 «Документація. Звіти у сфері науки І техніки. Структура І правила оформлення»
Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій iconХарків хнамг 2012 удк 004 : 910 : 528 (075) ббк шипулін В. Д
У посібнику представлені основні концепції І принципи аналізу географічних інформаційних систем (гіс). Розглянуті основи геопросторового...
Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій icon„узгоджено”
«Основних вимог до дисертацій та авторефератів дисертацій (Бюлетень вак україни, №6, 2007)» І дсту 3008-95 «Документація. Звіти у...
Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій icon„узгоджено”
«Основних вимог до дисертацій та авторефератів дисертацій (Бюлетень вак україни, №6, 2007)» І дсту 3008-95 «Документація. Звіти у...
Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій iconОсновні вимоги до дисертацій та авторефератів дисертацій загальні положення
Згідно з «Порядком присудження наукових ступенів І присвоєння вченого звання старшого наукового співробітника» дисертації на здобуття...
Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій iconВ луганському національному університеті імені тараса шевченка
«Основних вимог до дисертацій та авторефератів дисертацій (Бюлетень вак україни, №6, 2007)» І дсту 3008-95 «Документація. Звіти у...
Удк 004. 822 Система інтелектуального аналізу масивів авторефератів дисертацій iconПоложення про магістерську роботу в луганському національному університеті імені тараса шевченка
«Основних вимог до дисертацій та авторефератів дисертацій (Бюлетень вак україни, №6, 2007)» І дсту 3008-95 «Документація. Звіти у...
Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©zavantag.com 2000-2013
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи