Скачати 38.21 Kb.
|
УДК 004.822 СИСТЕМА ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ МАСИВІВ АВТОРЕФЕРАТІВ ДИСЕРТАЦІЙ Піскунов Д.М., Сидоренко В.М. Кременчуцький національний університет імені Михайла Остроградського Швидкий ріст обсягу інформації, що міститься як в Інтернеті, так і в корпоративних мережах, є причиною все більш і більш зростаючих труднощів пошуку необхідних документів та організації їх у вигляді структурованих за змістом сховищ [1]. При цьому більшість технологій роботи з текстовими документами орієнтовані на організацію зручної роботи з інформацією для людини, але практично відсутні можливості для передачі смислового змісту тексту, тобто відсутнє семантичне індексування, а неструктурована інформація становить значну частину сучасних електронних текстових документів. Допомогти у вирішенні даних проблем здатні програмні системи, які автоматично виконують інтелектуальну обробку даних. Оскільки автореферати дисертацій відносяться до неструктурованих текстових документів, а також існує потреба в їх аналізі у межах заданої спеціальності, то існує цілком актуальна задача покращення показників процесу автоматичного пошуку та аналізу великих масивів авторефератів за рахунок вилучення прихованих нетривіальних знань. Автори пропонують підхід, який не тільки забезпечує при мінімальному втручанні користувача можливість розбиття великого масиву авторефератів певної спеціальності на кластери, але й, на відміну від відомих, виконує автоматичну персоніфікацію отриманих сегментів. На сьогоднішній день існує декілька інструментів аналізу текстової інформації. Найбільш відомі з них – це Oracle Text (розробник – Oracle), Intelligent Miner for Text (розробник – IBM) та SAS Text Miner (розробник – SAS Institute) [2]. Треба зауважити, що кожна з вище названих програмних систем вирішує тільки одну або декілька задач технології Text Mining, причому ці рішення є узагальненими для текстової інформації з різних галузей. Тому запропонована система є більш орієнтованою на конкретну проблемну галузь – великий масив авторефератів. Це передбачає адаптацію алгоритмів технології Text Mining для роботи з текстовими документами, структура яких відома заздалегідь, що дозволить підвищити ефективність процесу кластеризації масиву авторефератів у межах заданої спеціальності та процесу автоматичної персоніфікації цих кластерів. Структура системи інтелектуального аналізу авторефератів складається з наступних підсистем (Рисунок): Підсистема пошуку інформації. Виконує процес ідентифікації авторефератів, що повинні бути піддані подальшому аналізу, і забезпечує їх доступність. Підсистема обробки інформації. Забезпечує попередню обробку документів з авторефератами за допомогою виконання чотирьох процесів:
Підсистема вилучення прихованих знань. Дана підсистема, в свою чергу, складається ще з двох підсистем: підсистеми застосування методів Text Mining та підсистеми візуалізації результатів. Підсистема застосування методів Text Mining виконує такі процеси:
Підсистема інтерпретації результатів. Як правило, інтерпретація полягає в поданні результатів природною мовою та/або в їх графічній візуалізації. Для цього здійснюється витяг ключових понять, які і представляються в графічному вигляді. Такий підхід допомагає користувачу швидко ідентифікувати головні теми і поняття, а також визначити їх важливість. ![]() Рис. 1 – Структура системи інтелектуального аналізу авторефератів Висновки Таким чином, у порівнянні з іншими програмними комплексами для вирішення задач Text Mining, дана система орієнтована на розв’язок задач конкретної проблемної області, яка пов’язана з авторефератами дисертаційних робіт і, яка на відміну від відомих підходів, забезпечує автоматичну персоніфікацію знайдених сегментів. Такий підхід дозволить суттєво скоротити час науковцям на пошук і систематизацію певної групи робіт, виділити напрями, що були «мейнстримом» у ті, чи інші періоди, ідентифікувати наукові школи і їх особливості і т. ін. ЛІТЕРАТУРА
|
![]() | Основні вимоги до дисертацій та авторефератів дисертацій загальні положення move to 0-3488812 | ![]() | Вимоги до оформлення дисертацій та авторефератів дисертацій Дисертація на здобуття наукового ступеня кандидата (доктора) |
![]() | Удк 004. 822 Анализ методов извлечения знаний из нейронных сетей В связи с этим актуальной становится задача извлечения из нейронной сети логической зависимости между её входными и выходными параметрами,... | ![]() | Основні вимоги до дисертацій та авторефератів дисертацій загальні положення України. Таким стандартом є дсту 3008-95 «Документація. Звіти у сфері науки І техніки. Структура І правила оформлення» |
![]() | Харків хнамг 2012 удк 004 : 910 : 528 (075) ббк шипулін В. Д У посібнику представлені основні концепції І принципи аналізу географічних інформаційних систем (гіс). Розглянуті основи геопросторового... | ![]() | „узгоджено” «Основних вимог до дисертацій та авторефератів дисертацій (Бюлетень вак україни, №6, 2007)» І дсту 3008-95 «Документація. Звіти у... |
![]() | „узгоджено” «Основних вимог до дисертацій та авторефератів дисертацій (Бюлетень вак україни, №6, 2007)» І дсту 3008-95 «Документація. Звіти у... | ![]() | Основні вимоги до дисертацій та авторефератів дисертацій загальні положення Згідно з «Порядком присудження наукових ступенів І присвоєння вченого звання старшого наукового співробітника» дисертації на здобуття... |
![]() | В луганському національному університеті імені тараса шевченка «Основних вимог до дисертацій та авторефератів дисертацій (Бюлетень вак україни, №6, 2007)» І дсту 3008-95 «Документація. Звіти у... | ![]() | Положення про магістерську роботу в луганському національному університеті імені тараса шевченка «Основних вимог до дисертацій та авторефератів дисертацій (Бюлетень вак україни, №6, 2007)» І дсту 3008-95 «Документація. Звіти у... |