Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни icon

Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни




НазваМетодичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни
Сторінка13/17
Дата11.09.2012
Розмір2.18 Mb.
ТипМетодичні вказівки
1   ...   9   10   11   12   13   14   15   16   17
^

СЕГМЕНТАЦІЯ ДОКУМЕНТА


Під природним порядком розпізнавання тексту розуміється послідовне розпізнавання рядків зліва направо. Проте, якщо текст розбитий на декілька колонок (стовпчиків) або містить урізання, підмалюнкові підписи, примітки, таблиці й інші елементи форматування, його розпізнавання в природному порядку неможливо. У таких випадках програма розбиває текст на блоки, кожний із який являє собою суцільний фрагмент тексту, що розпізнається у природному порядку. Така розбивка документа називається сегментацією.

Автоматична сегментація - не проста задача для програми. Програма розшукує проміжки між рядками, а також зони початку і кінця рядків. Якщо послідовність рядків, що йдуть підряд, має однакові зони початку і кінця, то програма розглядає таку область як текстовий блок.

Якщо проміжки між рядками взагалі відсутні, то, ймовірно, мова йде про ілюстрацію. Якщо виявляється велике число вертикальних і горизонтальних фрагментів, що утворюють правильну структуру, то, мабуть, у текст включена таблиця.

Сегментування можливо в трьох варіантах:

  • сегментування активної сторінки (видимої у вікні "Зображення");

  • сегментування виділених сторінок у вікні "Пакет" (для групового виділення використовуються клавіші Ctrl, Shift);

  • сегментування несегментованних сторінок, що залишилися в пакеті.

Обравши режим сегментування і клацнувши на кнопці "сегментувати", запускаємо процес сегментування. Після закінчення сегментування на зображенні сторінки видні виділені блоки у виді прямокутників (багатокутників) різноманітного кольору, що залежить від типу блока.

Програма FineReader розрізняє такі типи блоків: текст, картинка, таблиця, штрих-код. Текстові блоки обводяться зеленою лінією, картинки - червоною, таблиці - коричневою, штрих-коди - світло-зеленою.

Якщо вас влаштовують результати автоматичного сегментування, то другий етап перетворення документа можна вважати закінченим.

Правда, якщо зображення документа має невисоку якість, то сегментація може бути здійснена невдало, що проявиться в надлишковій кількості занадто дрібних блоків.

У таких випадках можна вручну вказати межі блоків або змінити автоматичну розбивку. Нові прямокутні блоки створюють методом протягання миші. При протяганні утворюваний блок виділяється пунктирною рамкою, що у момент створення блока перетворюється в суцільну зелену лінію.

Один із створених блоків завжди є поточним. Він обведений більш жирною лінією, а його вершини позначені маркерами. Перетягуванням цих маркерів можна регулювати межі блока.

Для створення блока непрямокутної форми або зміни послідовності блоків використовують кнопки панелі інструментів Інструменти - створити, знищити, перемістити, перенумерувати блок; додати, знищити частину блока. Кнопки "додати вертикальну", "додати горизонтальну" лінію або "знищити лінію" призначені для редагування блоків-таблиць. Щоб змінити тип блока, слід клацнути в межах блока правою кнопкою миші і вибрати потрібний тип у меню. Якщо ви хочете взагалі виключити з процесу розпізнавання фрагменти тексту і не включати їх у текстовий документ, то їх необхідно виділити і позначити як такі, що не розпізнаються (колір контуру сірий).
^

РОЗПІЗНАВАННЯ ТЕКСТУ ДОКУМЕНТА.


Після сегментації і встановлення порядку проходження текстових блоків

виконують останній етап роботи - власне розпізнавання. Звичайно цей етап проходить автоматично. Якщо документ надрукований достатньо стандартним шрифтом, що, до того ж, був добре відтворений при скануванні, то клацання на кнопці "Розпізнати відкриту сторінку" достатньо, щоб документ був розпізнаний. Якщо паперовий документ має недостатню контрастність або незвичний шрифт, процедура трохи ускладнюється. У цьому випадку програма може не справлятися з розпізнаванням певних символів і припускатися однотипних помилок. У таких випадках для великих документів доцільно спочатку провести навчання програми відповідно до особливостей даного документа. Це досить трудомісткий процес, але він усе ж простіший, ніж ручне введення багатосторінкового документа.

Настроювання розпізнавання починають із створення еталона, у якому зберігаються особливості даного документа. Для цього треба дати команду "Сервіс - Редактор еталонів", клацнути в діалоговому вікні, що відкрилося, "Еталони" на кнопці "Новий еталон" і ввести ім'я утворюваного еталона.

1. Для підключення еталона при розпізнаванні, треба клацнути на кнопці, що розкривається, поруч із кнопкою "Розпізнати відкриту сторінку" і вибрати пункт "Опції". У діалоговому вікні, що відкрилося, у групі "Навчання" варто вибрати тільки що створений еталон. Якщо передбачається розпізнавання документа, що відповідає еталону, що був створений і настроєний раніше, то вибирається не новий, а старий еталон.

2. Для "навчання" еталона слід встановити прапорець "Розпізнавання з навчанням".

3. Режим розпізнавання в цьому випадку дещо змінюється. Всякий раз, коли програма не може впевнено розпізнати символ, вона видає діалогове вікно "Ручне навчання еталона". У верхній частині цього діалогового вікна приводиться збільшене зображення поточного розпізнаваного рядка. Поточний символ вміщений у рамку.

4. У поле зі списком "Символ" приведений символ, що, як вважає програма, знаходиться в рамці.

5. Необхідно переконатися, що символ у полі вказаний вірно, і замінити його в разі потреби. Після цього треба клацнути на кнопці "Навчити".

6. Якщо невірно зазначені межі символу, то кнопки "Зрушити вліво" і "Зрушити вправо" дозволяють поправити положення рамки.

7. Якщо вірно розташувати рамку не вдається або в тексті зустрівся рідкісний символ, який правильно інтерпретувати не можна, слід клацнути на кнопці "Пропустити".

Результати обробки сторінок надалі об'єднуються в єдиний текстовий файл.

1   ...   9   10   11   12   13   14   15   16   17

Схожі:

Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconМетодичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни
Студент це не посудина, що треба заповнити знаннями, а смолоскип, що треба запалити жагою знань
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconГ., Чуприна Г. П. Теоретичні засади дидактичного узагальнення змісту навчання з програмних засобів захисту інформації постановка проблеми
Ютерної інформації використовується велика кількість програмних засобів. Але зі швидким зростанням кількості шкідливих програм, зростає...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни icon1. Теоретичні основи інформатики
Зміст І порядок проходження дисципліни. Методика освоєння програмних засобів. Джерела інформації. Об'єкт інформатики. Інформаційні...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconТема Теоретичні основи інформатики
Зміст І порядок проходження дисципліни. Методика освоєння програмних засобів. Джерела інформації. Об'єкт інформатики. Інформаційні...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconМетодичні вказівки до виконання контрольної роботи та індивідуальні завдання з дисципліни «Технологія проектування програмних систем», наведені приклади їх виконання
Робоча програма, методичні вказівки та індивідуальні завдання до вивчення дисципліни «Технологія проектування програмних систем»...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconІнформації Якщо вибір повідомлення джерела x i наперед відомий, то:… Один кілобайт дорівнює:… Ентропією джерела називається:… Кодуванням називається:… Інформація може бути:…
Статистична надлишковість джерела має таку формулу (де І(Х) – кількість інформації в повідомленні джерела Х, Н(Х) – ентропія джерела...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconМетодичні вказівки до проведення практичних занять та виконання самостійних завдань з дисципліни «Комп’ютерне діловодство» для студентів спеціальності
Мета дисципліни навчити студентів технології ефективного використання сучасної комп’ютерної техніки в юридичній практиці. Основний...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconМетодичні вказівки до самостійної роботи студентів з дисципліни „Нетрадиційні автономні джерела електроенергії Для студентів спеціальності 070501 «Електротехнічні системи електроспоживання» всіх форм навчання
Методичні вказівки до самостійної роботи студентів з дисципліни „Нетрадиційні автономні джерела електроенергії”
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconМетодичні вказівки до самостійної роботи студентів з дисципліни „Нетрадиційні автономні джерела електроенергії Для студентів спеціальності 070501 «Електротехнічні системи електроспоживання» всіх форм навчання
Методичні вказівки до самостійної роботи студентів з дисципліни „Нетрадиційні автономні джерела електроенергії”
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconФормат опису модуля
Методи І засоби зберігання ключової інформації. Комп'ютерні віруси. Програмні закладки. Класифікація І методи впровадження програмних...
Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©zavantag.com 2000-2013
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи