\" автоматизоване введення текстової інформації \" icon

" автоматизоване введення текстової інформації "




Скачати 219.17 Kb.
Назва" автоматизоване введення текстової інформації "
Дата12.09.2012
Розмір219.17 Kb.
ТипЛекція






ЛЕКЦІЯ 3.1

" АВТОМАТИЗОВАНЕ ВВЕДЕННЯ ТЕКСТОВОЇ ІНФОРМАЦІЇ "



РОЗГЛЯНУТІ ПИТАННЯ:

РАСТРОВА ГРАФІКА

ПРИНЦИП ДІЇ СКАНЕРА.

ХАРАКТЕРИСТИКИ СКАНЕРА.

РОЗМІРИ ГРАФІЧНИХ ФАЙЛІВ

ФОРМАТИ ГРАФІЧНИХ ФАЙЛІВ.

ТИПИ СКАНЕРІВ

ПІДКЛЮЧЕННЯ СКАНЕРА ДО КОМП'ЮТЕРА

НЕОБХІДНІСТЬ ПЕРЕТВОРЕННЯ ГРАФІЧНИХ ТЕКСТІВ

ПРОГРАМИ РОЗПІЗНАВАННЯ ТЕКСТІВ

ПРОГРАМА FINEREADER

ПОРЯДОК РОЗПІЗНАВАННЯ ТЕКСТОВИХ ДОКУМЕНТІВ

ВІКНО ПРОГРАМИ

^ СКАНУВАННЯ ДОКУМЕНТА

СЕГМЕНТАЦІЯ ДОКУМЕНТА

РОЗПІЗНАВАННЯ ТЕКСТУ ДОКУМЕНТА.

НАСТРОЮВАННЯ ПРОГРАМИ FINEREADER


Роздивимося технічні і програмні засоби, що дозволяють автоматизувати процес уведення текстової інформації з паперових носіїв - книг, журналів, газет, анкет і т.п. До технічних засобів відносяться різноманітні типи сканерів. Програмні засоби представляє система розпізнавання текстів - FineReader.

^

РАСТРОВА ГРАФІКА


Растрова графіка застосовується для представлення кольорових і чорно-білих ілюстрацій у газетах, журналах і інших друкарських виданнях. Зображення, у яких яскравість плавно змінюється у визначених межах, називаються полутоновими. Як же передати зміни яскравості за допомогою фарби одного тону? Зображення представляють у виді сукупності точок різного розміру. Відстань між центрами точок залишається постійним, а розміри точок змінюються, причому більш значні точки створюють враження чорного цвіту, а точки з меншими розмірами роблять зображення більш світлим. На видаленні від малюнка точки зливаються і створюють імітацію відтінків. Таке зображення називається растровим. Якість зображення залежить від відстані між точками і вимірюється кількістю точок на одиницю довжини (як правило, на дюйм). Для газетних фотографій цей показник складає 65 точок на дюйм, для журналу з гарною якістю ілюстративного матеріалу - 150 точок на дюйм.

Растр кольорового полутонового зображення складається з кольорових точок, причому кожна кольорова точка утворюється з трьох точок червоного, синього і зеленого цвіту.

Для представлення малюнка в комп'ютері, необхідно одержати його растр і записати на магнітний носій у визначеному порядку яскравості кожної точки. У більшості випадків ці операції виконуються за допомогою сканера.


^

ПРИНЦИП ДІЇ СКАНЕРА.


Сканер - це електронно-механічний пристрій, призначений для перетворення паперового документа в електронну форму. Головка, що считує, рухаючись поперек листа з малюнком, рядок за рядком променем світла сканує поверхню документа. Світлочутливий датчик із визначеною частотою робить виміри інтенсивності відбитого оригіналом світла. Електронна схема перетворить обмірюваний розмір у двоічний код. Таким чином, у результаті сканування документа створюється графічний файл, у якому зберігається растрове зображення вихідного документа.

^

ХАРАКТЕРИСТИКИ СКАНЕРА.


Розрешаюча спроможність характеризує спроможність сканера розрізняти дрібні деталі зображення. Як очевидно з малюнка, розрешаюча спроможність залежить як від діаметра сфокусованого променя, так і від частоти вимірів відбитого сигналу. Якщо діаметр променя дорівнює відстані між точками, то на виході сканера вони зливаються в одну, тобто не розрізняються. У якості міри розрешаючої спроможності служить кількість помітних сканером точок, що містяться на одиниці довжини - dpi (dots per inch -точок на дюйм).

Для сучасних сканерів розрешаюча спроможність складає 800 - 1200 dpi.

^ Кількість градацій яскравості характеризує спроможність сканера передавати перепади яскравості зображення. Яскравість зображення вимірюється рівнем нейтрального цвіту (сірого). При нульовій яскравості - об'єкт чорний. З збільшенням яскравості цвіт прагне до білого.

Кожний елемент зображення має відтінок сірого цвіту, що кодирується двоічним числом. У растровому зображенні число відтінків сірого залежить від використовуваного числа розрядів двоічного числа. За допомогою одноразрядного двоічного числа можна уявити усього два рівні - 0 і 1, двухразрядного - 4 рівня (00, 01, 10, 11), k-розрядного - 2 у ступені k рівнів. Чим більше розрядів, тим більше природними і плавними стають переходи між ділянками зображення. Людське око не в змозі розрізнити більш 256 відтінків сірого. Для 256 рівнів потрібно 8 битий, тобто 1 байт пам'яті на кожну точку растра. При використанні всіх 256 рівнів шкали яскравості процес сканування фотографії 8 на 10 см потребує 2 Мбайт дискової пам'яті. Робота з файлами такого розміру потребує великого обйому ОЗП і потужного процесора.

Зменшення числа градацій сірого дозволяє зменшити розмір електронного зображення за рахунок деякого погіршення його якості.

Сканери дозволяють вибирати число градацій сірого. Вибір варіанта сканування визначається поступкою між якістю зображення і наявних ресурсів.
^

РОЗМІРИ ГРАФІЧНИХ ФАЙЛІВ


Розмір файла визначається кількістю точок растра, що представляють зображення, і залежить як від розмірів зображення (W, H), так і від розрешайочої спроможності сканера (R) і кількості рівнів квантування (N). Розрахуємо для приклада розмір файла зображення отриманого при скануванні чорно-білої фотографії розміром W=8 на H=10 см. Разрешаюча спроможність сканера R=400 точок на дюйм. Перекладемо цей розмір метричну систему мір. Тому що 1 дюйм=25.4 мм, те R=400/25.4=16 точок на мм. Для представлення одного рядка фотографії потрібно в 80(мм)*16(т/мм)=1280 точок. Усього рядків 100(мм)*16(т/мм)=1600. Таким чином, растр фотографії складається з 1280*1600=2048000 точок.

Якщо взяти максимальну кількість рівнів квантування N=256, те одна точка кодирується 8 розрядним числом - 1 байтом. Звідси випливає, що розмір графічного файла - 2048000(точок)*1(байт)=2000 Кбайт. Тобто біля 2 Мбайт.

Для штрихового малюнка не потрібно передача полутонових, кількість рівнів квантування можна взяти рівним 2 і представляти точку 1-розрядним числом. У цьому випадку розмір файла зменшиться в 8 разів і складе 250 Кбайт.

Розмір кольорової фотографії за інших рівних умов буде в три рази більше і складає біля 6 Мбайт.
^

ФОРМАТИ ГРАФІЧНИХ ФАЙЛІВ.


Для операційної системи Windows найбільше характерним є формат Windows Bitmap. Файли цього формату мають розширення *. BMP.

Як випливає з вищенаведеного приклада, розмір графічного файла достатньо великий. Тому використовують різноманітні засоби стиску інформації. Існує декілька десятків форматів растрових зображень. У кожного формату є свої позитивні якості, що визначають доцільність його використання при роботі з тими або іншими додатками.

Для Web-документів, що циркулюють у мережі Інтернет, дуже важливий розмір файлів, оскільки від нього залежить швидкість доступу до інформації. Тому при підготуванні Web-сторінок використовують два види графічних форматів, що забезпечують найбільше щільний стиск.

Для збереження багатобарвних зображень (фотографій) використовують формат JPEG, файли якого мають розширення *. JPG. Цей формат відрізняється тим, що забезпечує збереження даних із величезним ступенем стиску, але за рахунок утрати частини інформації.

Крім формату JPEG, в Інтернеті використовують формат GIF. Це самий «щільний» із графічних форматів, що не мають втрати інформації. Файли цього формату мають розширення *. GIF. У цьому форматі зберігаються і передаються малокольорові зображення, наприклад мальовані ілюстрації.

Особливі вимоги до якості зображень подаються в поліграфії. У цій області застосовується спеціальний формат TIFF. Файли цього формату мають розширення *. TIF.
^

ТИПИ СКАНЕРІВ


Відповідно до функціональних можливостей і пристрою сканери розділяються на настільні, портативні і спеціалізовані.

НАСТІЛЬНІ СКАНЕРИ.

Серед настільних сканерів розрізняють такі різновиди: планшетні, сторінкові і проекційні.

^ Планшетні (flatbed) сканери то нагадують копіювальні машини - "ксерокси". Для сканування зображення необхідно відчинити кришку сканера, покласти скануємий лист на скляну пластину зображенням униз, після чого закрити кришку. Блок сканування переміщається уздовж документа усередині корпуса сканера. Керування процесом сканування здійснює драйвер сканера, що поставляється разом із сканером. Планшетні сканери забезпечують найкращу якість і максимальну зручність при роботі з паперовими документами. Конструкція сканера дозволяє сканувати не тільки окремі листи, але і сторінки журналу або книги.

^ Сторінкові (sheet-fed)сканери. Сканери цього типу дозволяють за одну операцію сканувати лист паперу стандартного формату. Блок сканування в таких сканерів нерухомий, а папір протягається повз нього за допомогою спеціальних валиків, як у звичайній факсі-машині. Сторінкові сканери гарантують гарну якість сканування, але вони здатні сканувати тільки окремі листи. Перевести з їхньою поміччю в електронну форму сторінку книги або розгортання журналу неможливо.

^ Проекційні (overhead) сканери забезпечують найбільше розширення сканування, але вони призначені для сканування не паперових документів, а прозорих матеріалів, наприклад слайдів, негативів і т.п. У сканерах цього типу головка, що считує, установлена нерухомо, а зображення, закріплене на циліндричному барабані, обертається з високою швидкістю і скануеться построчно. Подібні сканери використовуються фаховими дизайнерами, архітекторами, тому що можуть сканувати від малюсіньких до величезних зображень.

^ ПОРТАТИВНІ СКАНЕРИ

Ручні сканери. Це самий простий вид сканерів, що забезпечує недорогий засіб перетворення зображення в цифрову форму. Такий сканер не має частин що рухаються, і сканування відбувається шляхом переміщення сканера по документі.

Недоліком ручних сканерів є дуже вузька смуга сканування (105 мм), а також високі вимоги до самого процесу сканування. Так, якщо рука, що тримає сканер, злегка подригується або рухається ривками, говорити про гарну якість сканування не доводиться. Якщо оригінал перевищує ширину сканера, те його доводить опрацьовувати вроздріб, а потім, за допомогою програми об'єднувати (зшивати) ці частини в одне зображення.

^ СПЕЦІАЛІЗОВАНІ СКАНЕРИ

Сканери форм - спеціальні сканери для введення інформації з заповнених бланків. Це різновид аркушевих сканерів. За допомогою подібних пристроїв уводять дані з анкет, опитувальних листів, виборчих бюлетенів. Від сканерів цього типу потрібно не висока разрешаюча спроможність, а дуже висока швидкодія. Зокрема, для сканерів цього типу автоматизують подачу паперових листів у пристрій.

Штрихи-сканери - різновид ручних сканерів. Призначено вони для зчитування штрихів-кодів із маркірування товарів у магазинах. Штрихи-сканери дозволяють автоматизувати процес підрахунку вартості покупок. Вони особливо зручні в торгових помешканнях, обладнаних електронним зв'язком і виробляючими розрахунками з покупцями за допомогою електронних платіжних засобів (кредитних карт, смарт-карт і т.п.).

^ КОЛЬОРОВІ СКАНЕРИ.

У кольоровому растровому зображенні кожна кольорова точка подана трьома точками відповідної яскравості - червоної, синьої і зеленої. Кольорове сканування - це сканування в сірому режимі з різними фильтрами (червоним, синім, зеленим). Потім дані за трьох проходу комбінуються. Сучасні сканери високого класу виконують цю операцію за один прохід.

256 відтінків по кожному компоненті дають у результаті 16.7 млн. можливих комбінацій, тобто цвітів. Розмір кольорового електронного зображення за інших рівних умов у трьох разу більше розміру чорно-білого зображення.
^

ПІДКЛЮЧЕННЯ СКАНЕРА ДО КОМП'ЮТЕРА


Існують сканери зі спеціальною платою розширення - контролером. Плату встановлюють в одне з гнізд розширень материнської плати комп'ютера, а сканер підключають до рознімання плати.

Деякі сканери підключають до вільного рівнобіжного порту (порту принтера). А самий принтер підключається до спеціального рознімання сканера. У такому випадку передача даних відбувається повільніше, зато ніяких додаткових пристроїв для підключення сканера не потрібно.

Оскільки апаратні інтерфейси сканерів відрізняються різноманіттям, були початі спеціальні міри для стандартизації програмного інтерфейсу, що забезпечує зв'язок між сканерами й операційною системою. Цей інтерфейс заснований на спеціальному протоколі TWAIN. Якщо сканер підтримує даний протокол, то операційна система Windows спроможна забезпечити взаємодію між сканером і програмним додатком, призначеним для роботи з ним. Всі сучасні сканери підтримують стандарт TWAIN. При установці сканера в системі Windows 95 необхідно використовувати драйвери, що поставляються разом із ним. У операційній системі Windows 98 стандарт TWAIN підтримується по умовчанню. При приєднанні до комп'ютера сканера, у вікні папки Панель керування з'являється відповідний значок, що дозволяє робити настроювання.

Після сканування графічні файли, у залежності від типу вихідного матеріалу піддаються опрацюванню. Фотографії ілюстративного характеру - ретуші, фотомонтажу. Спеціальні фотографії (рентгенівські знімки) - підвищенню контрастності. Текстові файли - перетворенню в текстовий формат.
^

НЕОБХІДНІСТЬ ПЕРЕТВОРЕННЯ ГРАФІЧНИХ ТЕКСТІВ


Після опрацювання документа сканером утворюється графічне зображення документа (графічна образ). Але графічний образ ще не є текстовим документом. З погляду комп'ютера, документ після сканування перетворюється в набір точок різного рівня яскравості, а зовсім не в текстовий документ. Текстові процесори не можуть опрацьовувати графічні тексти.

У текстовому документі кожний символ кодирується 8-розрядним числом. У графічному документі символ поданий великою кількістю точок (7000 для шрифту 14 розміру), і кожна точка кодирується числом. Для перекладу графічного документа в текстовий необхідно виділити графічний об'єкт, розпізнати його і замінити відповідним кодом. Після перетворення, текстовий документ має в сотні разів менший розмір, що той же документ у графічному форматі.

Перетворення тексту - достатньо складна науково-технічна задача, що зводиться до проблеми розпізнавання образів у складі крапкового графічного зображення. Подібні задачі вирішують за допомогою спеціальних програмних засобів, називаних засобами розпізнавання образів. Реальний технічний прорив у цій області відбувся лише в останні роки. До цього розпізнавання тексту було можливо тільки шляхом порівняння виявлених конфігурацій точок із стандартним зразком (еталоном, що зберігається в пам'яті комп'ютера). Автори програм задавали критерій «схожості», використовуваний при ідентифікації символів. Подібні системи називалися OCR (Optical Character Recognition -оптичне розпізнавання символів) і спиралися на спеціально розроблені шрифти, що полегшували такий підхід. Якщо доводило зштовхуватися з довільним і, тим більше, складним шрифтом, програми такого роду починали давати серйозні збої.

Останні наукові досягнення в області розпізнавання образів буквально перевернули представлення про оптичне розпізнавання символів. Сучасні програми цілком можуть справлятися з різноманітними (і дуже вигадливими) шрифтами без перенастройки. Багато програм розпізнають навіть рукописний текст.
^

ПРОГРАМИ РОЗПІЗНАВАННЯ ТЕКСТІВ


Оскільки потреба в розпізнаванні тексту отсканованних документів достатньо велика, тому є значне число програм, призначених для цієї цілі. Тому що різні наукові методи розпізнавання тексту розвивалися незалежно друг від друга, багато хто з цих програм використовують цілком різні алгоритми.

Ці алгоритми можуть давати різні результати на різних документах. Наприклад, що згадувалися вище системи OCR спроможні розпізнавати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, що не може перевершити жодна з більш універсальних програм.

Сучасні алгоритми розпізнавання тексту не орієнтуються ні на конкретний шрифт, ні на конкретний алфавіт. Більшість програм здатно розпізнавати текст кількома мовами. Ті самі алгоритми можна використовувати для розпізнавання латинського, російського, українських, арабського й інших алфавітів і навіть змішаних текстів. Зрозуміло, програма повинна знати, про який алфавіт мова йде.

Найбільше широко відомі і поширені програми FineReader і CuneiForm. Ми докладно зупинимося на програмі FineReader, що забезпечує високу якість розпізнавання і зручність застосування. З моменту виходу FineReader 4.0 Std/Pro завоював 26 нагород за точність і простоту використання.
^

ПРОГРАМА FINEREADER


Програма FineReader - продукт групи компаній ABBYY.

ABBYY - один із головних виробників програмного забезпечення в області лінгвістики, семантики, опрацювання текстів і систем оптичного розпізнавання символів. Група компаній ABBYY складається зі штаб-квартири ABBYY у Москві, ABBYY України (Київ), ABBYY США (Фримонт, Каліфорнія), ABBYY Європи (Мюнхен, Німеччина).

Програмні продукти ABBYY :

  • сімейство систем розпізнавання FINE READER, що дозволяють автоматизувати введення в комп'ютер текстів, таблиць, форм анкет і бланків;

  • FINE READER РУКОПИС забезпечує розпізнавання форм, заповнених друкованими літера від руки;

  • система FINE READER БАНК автоматизує введення платіжних доручень;

  • ABBYY Retrieval & Morphology Engine - інструментарій розроблювача для інтеграції полнотекстового пошуку і лінгвістичних технологій у зовнішні додатки ;

  • система електронних англо-російських і російсько-англійських словників LINGVO.

Програма FineReader призначена для розпізнавання текстів на російському, англійському, німецьких, українських, французькому і багатьох інших мовах, а також для розпізнавання змішаних двомовних текстів.

Програма має ряд зручних можливостей. Вона дозволяє об'єднувати сканування і розпізнавання в одну операцію, працювати з пакетами документів (або з Багатосторінковими документами) і з бланками. Програму можна навчати для підвищення якості розпізнавання погано надрукованих текстів або складних шрифтів. Вона дозволяє редагувати розпізнаний текст і перевіряти його орфографію. FineReader працює з різними моделями сканерів і підтримує стандарт TWAIN.

Перетворення паперового документа в електронний відбувається в три етапи.

  1. Перший етап - сканування. Сканер під керуванням драйвера, що підтримує протокол TWAIN, перетворить документ у сукупність графічних файлів (по числу сторінок). При необхідності користувач може переустановити параметри сканування.

Зображення з листа паперу може бути перетворене в цифрову форму і за допомогою інших засобів, таких, наприклад, як цифрові фотоапарати і цифрової відеокамери.

  1. Другий етап - сегментація тексту. Сегментація це процес виділення в документі однорідних фрагментів (блоків) зображення - тексту, малюнків, таблиць. Блоки опрацьовуються і включаються в документ у порядку нумерації блоків. Сегментація може виконуватися в автоматичному режимі. Якщо вихідний документ має складну структуру - містити ілюстрації, підмалюночні підписи до них, текст розміщається в декількох колонках, то сегментація робить у ручному режимі. У результаті сегментації утворяться файли, що бережуть опис блоків кожної сторінки.

  2. Останній третій етап роботи програми - безпосередньо розпізнавання. Він стосується тільки блоків, що містять текст і таблиці. Графічні блоки просто пересилаються у формований файл. Розпізнаний текст відображається в окремому вікні у виді форматованного текстового документа. Програма виділяє цвітом ті символи, що вона сама розглядає як неоднозначно пізнані. Це спрощує пошук помилок. Цей етап звичайно не потребує втручання користувача, за винятком тих випадків, коли текст неякісно відбитий або набраний невідомим шрифтом. Тоді користувач може "навчити" програму розпізнавати даний текст.

Створений текстовий файл "утрачає зв'язок" із вихідним зображенням і може редагуватися і форматувати незалежно від нього. Засобами програми в отриманому тексті можна також провести перевірку грамматики.

Кожний із цих етапів програма FineReader може виконувати як автоматично, так і під контролем користувача. Існує режим, коли всі три етапи виконуються автоматично під керуванням "майстра". У цьому випадку перетворення документа відбувається за один прийом.


Отриманий текст можна зберегти у виді форматованного або неформатованного документа. Передбачено також можливість прямої передачі отриманого тексту в програми Word або Excel, а також у буфер обміну Windows.

Процес сканування, сегментировання і розпізнавання багатосторінкового текстового документа достатньо тривалий і не завжди може бути закінчений за один прийом. . FineReader надає можливість розбити цей процес на частині. Робота з перетворення документа може бути передерта на будь-якому етапі. При цьому вся поточна інформація з опрацювання документа - графічні файли, сегментні файли, формований текстовий файл і службові файли записуються в папку з назвою "Пакет". При поновленні роботи всі необхідні файли счиуть із папки "Пакет" і процес перетворення документа продовжується з перерваного місця.
^

ВІКНО ПРОГРАМИ


Вікно програми має типовий для додатків Windows вид і містить рядок меню, інструментальні панелі і робочу область.

Меню. Меню програми FineReader містить більш 100 команд, розбитих на 8 груп. Імена цих груп складають пункти головного меню:

  1. "Файл" - група операцій по відкриттю і зберіганню файлів зображень, блоків і пакетів.

  2. "Правка" - сама численна група команд редагування блоків, таблиць, тексту.

  3. "Вид" - група команд, що управляє відображенням інструментальних панелей, вихідних і розпізнаних сторінок, масштабами зображень.

  4. "Зображення" - команди редагування зображення (повороти, дзеркальне відображення, інверсія).

  5. "Scan&Read" - сама головна група команд сканування, сегментування і розпізнавання.

  6. "Сервіс" - група команд по перевірці орфографії, настроюванню сканера й інших сервісних функцій.

  7. "Вікно" - команди які управляють розміщенням вікон усередині робочої області.

  8. "Довідка" - відомості про розроблювачі програми і довідкова система.

Інструментальні панелі. Інструментальні панелі містять піктограми найбільше часто використовуваних операцій. Управляти кількістю відображуваних на екрані панелей можна або через головне меню "Вид-Панели інструментів", або за допомогою контекстного меню, що викликається правою кнопкою миші. Усього є 5 панелей:

  1. "Стандартна" містить кнопки для відкриття документів і для операцій із буфером обміну.

  2. "Scan&Read " містить кнопки, що відповідають всім етапам перетворення паперового документа в електронний текст. Перша кнопка дозволяє виконати таке перетворення в рамках єдиної операції. Інші кнопки відповідають окремим етапам роботи і містять службовці, що розкриваються меню,, для керування відповідною операцією.

  3. "Розпізнавання" дозволяє зазначити Мову документа і вид шрифту. Останнє потрібно робити тільки в тому випадку, коли документ має погана якість преси.

  4. "Форматування" використовують для зміни представлення готового тексту або при його редагуванні.

  5. "Інструменти" використовують при роботі з вихідним зображенням. Зокрема, вона дозволяє управляти сегментацією документа.

^ Робоча область. Робоча область у залежності від етапу перетворення документа може містити до 4 внутрішніх вікон.

  1. Вікно "Пакет" розташовується в лівій частині робочої області і містить піктограми оброблюваних сторінок документа, що повинні бути перетворені в текст. Форма значка, що представляє сторінку, залежить від етапу опрацювання. По виду значка легко дізнатися чи було зроблене сегментування, розпізнавання. Клацання миші по піктограмі робить сторінку активної, а подвійний клацання призводить до відображення сторінки у вікні "Зображення"

  2. Вікно "Зображення" містить зображення отсканованного документа. З його поміччю можна оцінити якість сканування.

  3. Вікно "Великий план" містить фрагмент графічного документа з вікна "Зображення" у збільшеному виді. З її поміччю можна оцінити якість розпізнавання. Цю панель використовують також при «навчанні» програми в ході розпізнавання тексту.

  4. Вікно "Текст" відображає розпізнану сторінку.


Роздивимося варіант опрацювання документа по етапах.
^

СКАНУВАННЯ ДОКУМЕНТА


Сканування - це технічна операція, що виконує скануючий пристрій. Задача програми FineReader на цьому етапі складається в тому, щоб прийняти отриману інформацію від сканера і відобразити значки отсканованних сторінок на панелі Пакет.

Для того щоб провести сканування необхідно:

  1. Запустити програму FineReader і включити сканер.

  2. Вибрати тип драйвера (драйвера сканера, TWAIN-драйвера). При безпосередній взаємодії зі сканером можливість сканування кольорових зображень не використовується, тому що передбачається, текст у будь-якому випадку є одноколірним. Встановити прапорці і параметри режиму сканування:

  • орієнтація (книжкова, альбомна),

  • добір яскравості (ручний, автоматичний),

  • режим сканування картинок ()

  • дозвіл,

  • прапорець "Показувати діалог перед скануванням" застосовують тільки в тому випадку, коли паперові сторінки документа істотно відрізняються друг від друга. Це може бути викликано, наприклад, властивостями паперу або тим, що різні сторінки друкувалися в різний час і різні засоби. У цьому випадку перед скануванням кожної сторінки відчиняється діалогове вікно настроювання сканера, щоб користувач міг відрегулювати якість процесу.

  • прапорець "Пауза між сторінками, сек" використовують при відсутності в сканера автоматичної подачі сторінок.

Вікно діалогу TWAIN-драйвера з'являється після запуску процесу сканування.

  1. Сканування сторінки робить по клацанні на кнопці "Сканувати" на панелі інструментів Scan&Read або при натисканні комбінації клавіш CTRL+K.

На кнопці з'являється червоний кружок із білим хрестиком, що сигналізує про те, що процес сканування почався. Перервати процес можна тільки клавішею Esc. Якщо потрібно опрацювати багато сторінок, те найкраще спочатку усіх їх отсканувати, а вже потім приступати до розпізнавання. Це пов'язано з тим, що сканування потребує присутності користувача через необхідність керування сканером (наприклад, для зміни сторінок), а розпізнавання може відбуватися в автоматичному режимі.

Після сканування кожного листа у вікні "Пакет" з'являються піктограма з номером сторінки. Сторінки нумеруються послідовно, починаючи з одиниці. Існує опція, що дозволяє нумерувати з заданої сторінки, із заданим збільшенням 1 або 2, по зростанню або убуванню.

Коли остання сторінка буде отсканованний, відчиняються два вікна - "Зображення" і "Великий план", у яких відображена активна сторінка. Користувач може переглянути результати сканування в різних масштабах, дізнатися властивості зображення, зберегти отримані графічні файли в окремій папці.
^

СЕГМЕНТАЦІЯ ДОКУМЕНТА


Під природним порядком розпізнавання тексту розуміється послідовне розпізнавання рядків зліва праворуч. Проте, якщо текст розбитий на декілька колонок (стовпчиків) або містить урізання, підмалюнкові підписи, примітки, таблиці й інші елементи форматування, його розпізнавання в природному порядку неможливо. У таких випадках програма розбиває текст на блоки, кожний із який являє собою суцільний фрагмент тексту, розпізнаваний у природному порядку. Така розбивка документа називається сегментацією.

Автоматична сегментація - не проста задача для програми. Програма розшукує проміжки між рядками, а також зони початку і кінця рядків. Якщо послідовність рядків, що йдуть підряд, має однакові зони початку і кінця, то програма розглядає таку область як текстовий блок.

Якщо проміжки між рядками узагалі відсутні, те, як видно, мова йде про ілюстрацію. Якщо виявляється велике число вертикальних і горизонтальних фрагментів, що утворять правильну структуру, те, мабуть, у текст включена таблиця.

Сегментування можливо в трьох варіантах:

  • сегментування активної сторінки (видимої у вікні "Зображення");

  • сегментування виділених сторінок у вікні "Пакет" (для групового виділення використовуються клавіші Ctrl, Shift);

  • сегментування несегментованних сторінок, що залишилися в пакеті.

Обравши режим сегментування і клацнувши на кнопці "сегментувати", запускаємо процес сегментування. Після закінчення сегментування на зображенні сторінки значні виділені блоки у виді прямокутників (багатокутників) різноманітного цвіту, що залежить від типу блока.

Програма FineReader розрізняє такі типи блоків: текст, картинка, таблиця, штрих-код. Текстові блоки обводяьтся зеленою лінією, картинки - червоної, таблиці - коричневої, штрихи-коди - ясно-зеленої.

Якщо вас улаштовують результати автоматичного сегментування, то другий етап перетворення документа можна вважати закінченим.

Правда, якщо зображення документа має невисока якість, то сегментація може бути зроблена неудачно, що проявиться в надлишковій кількості занадто дрібних блоків.

У таких випадках можна вручну зазначити межи блоків або змінити автоматичну розбивку. Нові прямокутні блоки створюють методом протягання миші. При протяганні утворюваний блок виділяється пунктирною рамкою, що у момент створення блока перетворюється в суцільну зелену лінію.

Один із створених блоків завжди є поточним. Він обведений більш масною лінією, а його вершини позначені маркерами. Перетаскуванням цих маркерів можна регулювати межи блока.

Для створення блока непрямокутної форми або зміни послідовності блоків використовують кнопки панелі інструментів Інструменти - створити, видалити, перемістити, перенумерувати блок; додати, видалити частину блока. Кнопки "додати вертикальну", "додати горизонтальну" лінію або "видалити лінію" призначені для редагування блоків-таблиць. Щоб змінити тип блока, варто клацнути в межах блока правою кнопкою миші і вибрати потрібний тип у меню. Якщо ви хочете узагалі виключити з процесу розпізнавання фрагменти тексту і не включати їх у текстовий документ, те їх необхідно виділити і позначити як нероспізнємі (цвіт контуру сірий).
^

РОЗПІЗНАВАННЯ ТЕКСТУ ДОКУМЕНТА.


Після сегментації і встановлення порядку проходження текстових блоків

виконують останній етап роботи - власне розпізнавання. Звичайно цей етап проходить автоматично. Якщо документ надрукований достатньо стандартним шрифтом, що, до того ж, був добре відтворений при скануванні, то клацанні на кнопці "Розпізнати відкриту сторінку" достатньо, щоб документ був розпізнаний. Якщо паперовий документ має недостатню контрастність або незвичний шрифт, процедура трохи ускладнюється. У цьому випадку програма може не справлятися з розпізнаванням визначених символів і припускати однотипні помилки. У таких випадках для великих документів доцільно спочатку провести навчання програми відповідно до особливостей даного документа. Це достатньо трудомісткий процес, але він усе ж простіше, чим ручне введення багатосторінкового документа.

Настроювання розпізнавання починають із створення еталона, у якому зберігаються особливості даного документа. Для цього треба дати команду "Сервіс - Редактор еталонів", клацнути в діалоговому вікні, що відчинилося, "Еталони" на кнопці "Новий еталон" і ввести ім'я утворюваного еталона.

1. Для підключення еталона при розпізнаванні, треба клацнути на кнопці, що розкриває, поруч із кнопкою "Розпізнати відкриту сторінку" і вибрати пункт "Опції". У діалоговому вікні, що відчинилося, у групі "Навчання" варто вибрати тільки що створений еталон. Якщо передбачається розпізнавання документа, що відповідає еталону, що був створений і настроєний раніше, те вибирається не новий, а старий еталон.

2. Для "навчання" еталона варто встановити прапорець "Розпізнавання з навчанням".

3. Режим розпізнавання в цьому випадку трохи змінюється. Всякий раз, коли програма не може впевнено розпізнати символ, вона видає діалогове вікно "Ручне навчання еталона". У верхній частині цього діалогового вікна приводиться збільшене зображення поточного розпізнаваного рядка. Поточний символ укладений у рамку.

4. У поле зі списком "Символ" приведений символ, що, як думає програма, знаходиться в рамці.

5. Необхідно переконатися, що символ у поле зазначений вірно, і замінити його в разі потреби. Після цього треба клацнути на кнопці "Навчити".

6. Якщо невірно зазначені межі символу, то кнопки "Зрушити вліво" і "Зрушити вправо" дозволяють поправити положення рамки.

7. Якщо вірно розташувати рамку не вдасться або в тексті зустрівся рідкісний символ, що правильно інтепретувати не можна, варто клацнути на кнопці "Пропустити".

Результати опрацювання сторінок надалі об'єднуються в єдиний текстовий файл.

^

НАСТРОЮВАННЯ ПРОГРАМИ FINEREADER


Як і більшість інших додатків Windows, програму FineReader можна настроїти відповідно до вимог конкретного користувача. Всі настроювання здійснюються за допомогою діалогового вікна "Опції", що відчиняють за допомогою будь-який панелі, що розкриває стрілки на, інструментів "Scan&Read" або через меню "Сервіс". Якщо використана панель інструментів, то діалогове вікно відчиняється на вкладці, що відповідає використаній кнопці панелі інструментів.

1. Вкладка "Сканування" служить для вибору і настроювання сканера, а також для визначення засобу доступу до нього.

2. Вкладка "Сегментація" дозволяє настроювати деякі параметри для автоматичної сегментації. Тут задають параметри автоматичної розбивки таблиць і настроюють режим автоматичної сегментації багатоколоночного тексту.

3. Засоби вкладки "Форматування" дозволяють задати засіб форматування розпізнаної сторінки і вибрати використовувані шрифти.

4. Вкладка Розпізнавання визначає параметри розпізнавання документа. Вона дозволяє задати мову документа й особливості вихідного шрифту, а також настроїти режим розпізнавання з навчанням. Тут же задається метод колірного виділення ненадійно розпізнаних символів.

5. Елементами керування вкладки "Перевірка" задають метод перевірки орфографії і засіб позначки виявлених помилок або сумнівних місць.

6. Вкладка "Установки" визначає загальні настроювання програми. Тут задають мову інтерфейсу і настроюють використовувані одиниці виміру.

7. Прапорці панелі "Показувати" визначають засіб представлення вікна програми і відкритих документів.

8. Панель "Кольори" дозволяє визначити кольори різноманітних елементів документа. У нижній частині вікна можна задати додаткові параметри.



Схожі:

\" автоматизоване введення текстової інформації \" iconПеретворення та обробка текстової інформації в електронну форму
У статті розглянуто питання перетворення текстової інформації в електронну, а також підготовку електронних документів
\" автоматизоване введення текстової інформації \" iconЛекція Стандартні класи С#. Робота з рядками
Для обробки текстової інформації в C# є широкий набір засобів: окремі символи, масиви символів, змінні І незмінні рядки І регулярні...
\" автоматизоване введення текстової інформації \" iconЕкзаменаційні питання до л01 "Введення в дисципліну"
Зазначте джерела інформації, що допоможуть Вам самостійно вивчити новий програмний продукт
\" автоматизоване введення текстової інформації \" iconКод модуля: фот 6043 С01 Тип модуля: обов’язковий Семестр
Введення інформації в компґютер. Аналогово-цифрове перетворення. Вхідні фільтри ацп
\" автоматизоване введення текстової інформації \" iconРозробка програмного забезпечення для введення та редагування поточної інформації автоматизованого робочого місця працівника відділу управління персоналом
Предметна область. Предметною областю дослідження є автоматизація обліку працівників університету
\" автоматизоване введення текстової інформації \" iconІнформація І повідомлення. Властивості інформації. Види інформації. Інформація І шум та їх взаємоперетворення. Зберігання інформації. Одиниці вимірювання обсягів інформації на носіях. Кодування інформації в комп’ютері. Формула Хартлі
Програма базується на знаннях, здобутих учнями середніх шкіл на курсах інформатики, алгебри та геометрії
\" автоматизоване введення текстової інформації \" iconМетодичнІ вказівки
Шляхи введення ін'єкційних лікарських форм. Види ін'єкцій. Виявлення терапевтичного ефекту залежно від способу введення ін'єкційних...
\" автоматизоване введення текстової інформації \" iconПрограма І робоча програма навчальної дисципліни Автоматизоване проектування електромеханічних систем
Автоматизоване проектування електромеханічних систем" (для студентів 5, 6 курсів денної та заочної форм навчання спеціальності 092203,...
\" автоматизоване введення текстової інформації \" iconГ. В. Стадник Інтерфейс Autocad. Способи введення команд, використання меню І панелей інструментів. Робота із шарами. Способи введення координат точки
Методичні вказівки до виконання лабораторних робіт з курсу “Інформатика І основи комп'ютерного моделювання”
\" автоматизоване введення текстової інформації \" iconКомп’ютерна інформаційна система «Олімпіада» Короткий опис розробки Інформаційна система «Олімпіада»
«Олімпіада» дозволяє практично повністю автоматизувати введення, зберігання та обробку інформації, що використовується під час підготовки...
Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©zavantag.com 2000-2013
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи