Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни icon

Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни




НазваМетодичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни
Сторінка11/17
Дата11.09.2012
Розмір2.18 Mb.
ТипМетодичні вказівки
1   ...   7   8   9   10   11   12   13   14   ...   17
^

НЕОБХІДНІСТЬ ПЕРЕТВОРЕННЯ ГРАФІЧНИХ ТЕКСТІВ


Після обробки документа сканером утворюється графічне зображення документа (графічний образ). Але графічний образ ще не є текстовим документом. З погляду комп'ютера, документ після сканування перетворюється в набір точок різного рівня яскравості, а зовсім не в текстовий документ. Текстові процесори не можуть опрацьовувати графічні тексти.

У текстовому документі кожний символ кодується 8-розрядним числом. У графічному документі символ поданий великою кількістю точок (7000 для шрифту 14 розміру), і кожна точка кодується числом. Для переводу графічного документа в текстовий необхідно виділити графічний об'єкт, розпізнати його і замінити відповідним кодом. Після перетворення, текстовий документ має в сотні разів менший розмір, чим той же документ у графічному форматі.

Перетворення тексту - досить складна науково-технічна задача, що зводиться до проблеми розпізнавання образів у складі точечного графічного зображення. Подібні задачі вирішують за допомогою спеціальних програмних засобів, що називаються засобами розпізнавання образів. Реальний технічний прорив у цій області відбувся лише в останні роки. До цього розпізнавання тексту було можливо тільки шляхом порівняння виявлених конфігурацій точок із стандартним зразком (еталоном, що зберігається в пам'яті комп'ютера). Автори програм задавали критерій «схожості», використовуваний при ідентифікації символів. Подібні системи називалися OCR (Optical Character Recognition -оптичне розпізнавання символів) і спиралися на спеціально розроблені шрифти, що полегшували такий підхід. Якщо доводило стикатися з довільним і, тим більше, складним шрифтом, програми такого роду починали давати серйозні збої.

Останні наукові досягнення в області розпізнавання образів буквально перевернули представлення про оптичне розпізнавання символів. Сучасні програми цілком можуть справлятися з різноманітними (і дуже вигадливими) шрифтами без перенастройки. Багато програм розпізнають навіть рукописний текст.
^

ПРОГРАМИ РОЗПІЗНАВАННЯ ТЕКСТІВ


Оскільки потреба в розпізнаванні тексту відсканованих документів достатньо велика, тому є велика кількість програм, призначених для цієї мети. Так як різні наукові методи розпізнавання тексту розвивалися незалежно один від одного, більшість з цих програм використовують цілком різні алгоритми.

Ці алгоритми можуть давати різні результати на різних документах. Наприклад, системи OCR, що згадувалися вище, спроможні розпізнавати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, які не може перевершити жодна з більш універсальних програм.

Сучасні алгоритми розпізнавання тексту не орієнтуються ні на конкретний шрифт, ні на конкретний алфавіт. Більшість програм здатна розпізнавати текст кількома мовами. Ті ж самі алгоритми можна використовувати для розпізнавання латинського, російського, українських, арабського й інших алфавітів і навіть змішаних текстів. Зрозуміло, програма повинна знати, про який алфавіт мова йде.

Найбільш широко відомі і поширені програми FineReader і CuneiForm. Ми докладно зупинимося на програмі FineReader, що забезпечує високу якість розпізнавання і зручність застосування. З моменту виходу FineReader 4.0 Std/Pro завоював 26 нагород за точність і простоту використання.
^

ПРОГРАМА FINEREADER


Програма FineReader - продукт групи компаній ABBYY.

ABBYY - один із головних виробників програмного забезпечення в області лінгвістики, семантики, опрацювання текстів і систем оптичного розпізнавання символів. Група компаній ABBYY складається зі штаб-квартири ABBYY у Москві, ABBYY України (Київ), ABBYY США (Фримонт, Каліфорнія), ABBYY Європи (Мюнхен, Німеччина).

Програмні продукти ABBYY :

  • сімейство систем розпізнавання FINE READER, що дозволяють автоматизувати введення в комп'ютер текстів, таблиць, форм анкет і бланків;

  • FINE READER РУКОПИС забезпечує розпізнавання форм, заповнених друкованими літера від руки;

  • система FINE READER БАНК автоматизує введення платіжних доручень;

  • ABBYY Retrieval & Morphology Engine - інструментарій розроблювача для інтеграції повнотекстового пошуку і лінгвістичних технологій у зовнішні додатки ;

  • система електронних англо-російських і російсько-англійських словників LINGVO.

Програма FineReader призначена для розпізнавання текстів на російській, англійській, німецькій, українській, французькій і багатьох інших мовах, а також для розпізнавання змішаних двомовних текстів.

Програма має ряд зручних можливостей. Вона дозволяє об'єднувати сканування і розпізнавання в одну операцію, працювати з пакетами документів (або з Багатосторінковими документами) і з бланками. Програму можна вчати для підвищення якості розпізнавання погано надрукованих текстів або складних шрифтів. Вона дозволяє редагувати розпізнаний текст і перевіряти його орфографію. FineReader працює з різними моделями сканерів і підтримує стандарт TWAIN.

Перетворення паперового документа в електронний відбувається в три етапи.

  1. Перший етап - сканування. Сканер під керуванням драйвера, що підтримує протокол TWAIN, перетворює документ у сукупність графічних файлів (по числу сторінок). При необхідності користувач може переустановити параметри сканування.

Зображення з листа паперу може бути перетворене в цифрову форму і за допомогою інших засобів, таких, наприклад, як цифрові фотоапарати і цифрової відеокамери.

  1. Другий етап - сегментація тексту. Сегментація - це процес виділення в документі однорідних фрагментів (блоків) зображення - тексту, малюнків, таблиць. Блоки опрацьовуються і включаються в документ у порядку нумерації блоків. Сегментація може виконуватися в автоматичному режимі. Якщо вихідний документ має складну структуру - містить ілюстрації, підмалюночні підписи до них, текст розміщається в декількох колонках, то сегментація здійснюється у ручному режимі. У результаті сегментації утворюються файли, що зберігають опис блоків кожної сторінки.

  2. Останній третій етап роботи програми - безпосередньо розпізнавання. Він стосується тільки блоків, що містять текст і таблиці. Графічні блоки просто пересилаються у формований файл. Розпізнаний текст відображається в окремому вікні у вигляді форматованого текстового документа. Програма виділяє кольором ті символи, які вона сама розглядає як неоднозначно пізнані. Це спрощує пошук помилок. Цей етап звичайно не потребує втручання користувача, за винятком тих випадків, коли текст неякісно надрукований або набраний невідомим шрифтом. Тоді користувач може "навчити" програму розпізнавати даний текст.

Створений текстовий файл "втрачає зв'язок" із вихідним зображенням і може редагуватися і форматуватися незалежно від нього. Засобами програми в отриманому тексті можна також провести перевірку граматики.

Кожний із цих етапів програма FineReader може виконувати як автоматично, так і під контролем користувача. Існує режим, коли всі три етапи виконуються автоматично під керуванням "майстра". У цьому випадку перетворення документа відбувається за один прийом.


Отриманий текст можна зберегти у виді форматованого або неформатованого документа. Передбачено також можливість прямої передачі отриманого тексту в програми Word або Excel, а також у буфер обміну Windows.

Процес сканування, сегментування і розпізнавання багатосторінкового текстового документа досить тривалий і не завжди може бути закінчений за один прийом. . FineReader надає можливість розбити цей процес на частини. Робота з перетворення документа може бути припинена на будь-якому етапі. При цьому вся поточна інформація з опрацювання документа - графічні файли, сегментні файли, формований текстовий файл і службові файли записуються в папку з назвою "Пакет". При поновленні роботи всі необхідні файли зчитуються із папки "Пакет" і процес перетворення документа продовжується з перерваного місця.
1   ...   7   8   9   10   11   12   13   14   ...   17

Схожі:

Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconМетодичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни
Студент це не посудина, що треба заповнити знаннями, а смолоскип, що треба запалити жагою знань
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconГ., Чуприна Г. П. Теоретичні засади дидактичного узагальнення змісту навчання з програмних засобів захисту інформації постановка проблеми
Ютерної інформації використовується велика кількість програмних засобів. Але зі швидким зростанням кількості шкідливих програм, зростає...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни icon1. Теоретичні основи інформатики
Зміст І порядок проходження дисципліни. Методика освоєння програмних засобів. Джерела інформації. Об'єкт інформатики. Інформаційні...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconТема Теоретичні основи інформатики
Зміст І порядок проходження дисципліни. Методика освоєння програмних засобів. Джерела інформації. Об'єкт інформатики. Інформаційні...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconМетодичні вказівки до виконання контрольної роботи та індивідуальні завдання з дисципліни «Технологія проектування програмних систем», наведені приклади їх виконання
Робоча програма, методичні вказівки та індивідуальні завдання до вивчення дисципліни «Технологія проектування програмних систем»...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconІнформації Якщо вибір повідомлення джерела x i наперед відомий, то:… Один кілобайт дорівнює:… Ентропією джерела називається:… Кодуванням називається:… Інформація може бути:…
Статистична надлишковість джерела має таку формулу (де І(Х) – кількість інформації в повідомленні джерела Х, Н(Х) – ентропія джерела...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconМетодичні вказівки до проведення практичних занять та виконання самостійних завдань з дисципліни «Комп’ютерне діловодство» для студентів спеціальності
Мета дисципліни навчити студентів технології ефективного використання сучасної комп’ютерної техніки в юридичній практиці. Основний...
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconМетодичні вказівки до самостійної роботи студентів з дисципліни „Нетрадиційні автономні джерела електроенергії Для студентів спеціальності 070501 «Електротехнічні системи електроспоживання» всіх форм навчання
Методичні вказівки до самостійної роботи студентів з дисципліни „Нетрадиційні автономні джерела електроенергії”
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconМетодичні вказівки до самостійної роботи студентів з дисципліни „Нетрадиційні автономні джерела електроенергії Для студентів спеціальності 070501 «Електротехнічні системи електроспоживання» всіх форм навчання
Методичні вказівки до самостійної роботи студентів з дисципліни „Нетрадиційні автономні джерела електроенергії”
Методичні вказівки по освоєнню програмних засобів Додаткові джерела інформації зміст дисципліни iconФормат опису модуля
Методи І засоби зберігання ключової інформації. Комп'ютерні віруси. Програмні закладки. Класифікація І методи впровадження програмних...
Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©zavantag.com 2000-2013
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи