Информатика для юристов icon

Информатика для юристов




НазваИнформатика для юристов
Сторінка7/99
С.В. Симоновича
Дата03.06.2013
Розмір9.92 Mb.
ТипКнига
1   2   3   4   5   6   7   8   9   10   ...   99
^

1.6. Данные и их кодирование



Носители данных


Данные — диалектическая составная часть информации. Они представляют собой зарегистрированные сигналы. При этом физический метод регистрации может быть любым: механическое перемещение физических тел, изменение их формы или пара­метров качества поверхности, изменение электрических, магнитных, оптических характеристик, химического состава и (или) характера химических связей, изме­нение состояния электронной системы и многое другое.

В соответствии с методом регистрации данные могут храниться и транспортиро­ваться на носителях различных видов. Самым распространенным носителем дан­ных, хотя и не самым экономичным, по-видимому, является бумага. На бумаге дан­ные регистрируются путем изменения оптических характеристик ее поверхности. Изменение оптических свойств (изменение коэффициента отражения поверхности в определенном диапазоне длин волн) используется также в устройствах, осуще­ствляющих запись лазерным лучом на пластмассовых носителях с отражающим покрытием (CD-ROM). В качестве носителей, использующих изменение магнит­ных свойств, можно назвать магнитные ленты и диски. Регистрация данных путем изменения химического состава поверхностных веществ носителя широко исполь­зуется в фотографии. На биохимическом уровне происходит накопление и пере­дача данных в живой природе.

Носители данных интересуют нас не сами по себе, а постольку, поскольку свой­ства информации весьма тесно связаны со свойствами ее носителей. Любой носи­тель можно характеризовать параметром разрешающей способности (количеством данных, записанных в принятой для носителя единице измерения) и динамичес­ким диапазоном (логарифмическим отношением интенсивности амплитуд макси­мального и минимального регистрируемого сигналов). От этих свойств носителя нередко зависят такие свойства информации, как полнота, доступность и досто­верность. Так, например, мы можем рассчитывать на то, что в базе данных, разме­щаемой на компакт-диске, проще обеспечить полноту информации, чем в анало­гичной по назначению базе данных, размещенной на гибком магнитном диске, поскольку в первом случае плотность записи данных на единице длины дорожки намного выше. Для обычного потребителя доступность информации в книге заметно выше, чем той же информации на компакт-диске, поскольку не все потребители обладают необходимым оборудованием. И, наконец, известно, что визуальный эффект от просмотра слайда в проекторе намного больше, чем от просмотра анало­гичной иллюстрации, напечатанной на бумаге, поскольку диапазон яркостных сиг­налов в проходящем свете на два-три порядка больше, чем в отраженном.

Задача преобразования данных с целью смены носителя относится к одной из важ­нейших задач информатики. В структуре стоимости вычислительных систем уст­ройства для ввода и вывода данных, работающие с носителями информации, состав­ляют до половины стоимости аппаратных средств.


^ Операции с данными


В ходе информационного процесса данные преобразуются из одного вида в другой с помощью методов. Обработка данных включает в себя множество различных операций. По мере развития научно-технического прогресса и общего усложне­ния связей в человеческом обществе трудозатраты на обработку данных неуклонно возрастают. Прежде всего, это связано с постоянным усложнением условий управ­ления производством и обществом. Второй фактор, также вызывающий общее увеличение объемов обрабатываемых данных, тоже связан с научно-техническим про­грессом, а именно с быстрыми темпами появления и внедрения новых носителей данных, средств хранения и доставки данных.

В структуре возможных операций с данными можно выделить следующие основные:

  • сбор данных — накопление данных с целью обеспечения достаточной полноты информации для принятия решений;

  • формализация данных — приведение данных, поступающих из разных источ­ников, к одинаковой форме, чтобы сделать их сопоставимыми между собой, то есть повысить их уровень доступности;

  • фильтрация данных — отсеивание «лишних» данных, в которых нет необходи­мости для принятия решений; при этом должен уменьшаться уровень «шума», а достоверность и адекватность данных должны возрастать;

  • сортировка данных — упорядочение данных по заданному признаку с целью удобства использования; повышает доступность информации;

  • группировка данных — объединение данных по заданному признаку с целью повышения удобства использования; повышает доступность информации;

  • архивация данных — организация хранения данных в удобной и легкодоступ­ной форме; служит для снижения экономических затрат на хранение данных и повышает общую надежность информационного процесса в целом;

  • защита данных — комплекс мер, направленных на предотвращение утраты, вос­произведения и модификации данных;

  • транспортировка данных — прием и передача (доставка и поставка) данных между удаленными участниками информационного процесса; при этом источник данных в информатике принято называть сервером, а потребителя — клиентом;

  • преобразование данных — перевод данных из одной формы в другую или из одной структуры в другую. Преобразование данных часто связано с изменением типа носителя, например книги можно хранить в обычной бумажной форме, но можно использовать для этого и электронную форму, и микрофотопленку. Необходимость в многократном преобразовании данных возникает также при их транспортировке, особенно если она осуществляется средствами, не пред­назначенными для транспортировки данного вида данных. В качестве примера можно упомянуть, что для транспортировки цифровых потоков данных по кана­лам телефонных сетей (которые изначально были ориентированы только на передачу аналоговых сигналов в узком диапазоне частот) необходимо преоб­разование цифровых данных в некое подобие звуковых сигналов, чем и зани­маются специальные устройства — телефонные модемы.

Приведенный здесь список типовых операций с данными далеко не полон. Мил­лионы людей во всем мире занимаются созданием, обработкой, преобразованием и транспортировкой данных, и на каждом рабочем месте выполняются свои спе­цифические операции, необходимые для управления социальными, экономичес­кими, промышленными, научными и культурными процессами. Полный список возможных операций составить невозможно, да и не нужно. Сейчас нам важен дру­гой вывод: работа с информацией может иметь огромную трудоемкость, и ее надо автоматизировать.


^ Кодирование данных двоичным кодом


Для автоматизации работы с данными, относящимися к различным типам, очень важно унифицировать их форму представления — для этого обычно используется прием кодирования, то есть выражение данных одного типа через данные другого типа. Естественные человеческие языки — это не что иное, как системы кодирова­ния понятий для выражения мыслей посредством речи. К языкам близко примы­кают азбуки (системы кодирования компонентов языка с помощью графических символов). История знает интересные, хотя и безуспешные попытки создания «уни­версальных» языков и азбук. По-видимому, безуспешность попыток их внедрения связана с тем, что национальные и социальные образования естественным образом понимают, что изменение системы кодирования общественных данных непре­менно приводит к изменению общественных методов (то есть норм права и мора­ли), а это может быть связано с социальными потрясениями.

Та же проблема универсального средства кодирования достаточно успешно реа­лизуется в отдельных отраслях техники, науки и культуры. В качестве примеров можно привести систему записи математических выражений, телеграфную азбуку, морскую флажковую азбуку, систему Брайля для слепых и многое другое.





Рис. 1.8. Примеры различных систем кодирования


Своя система существует и в вычислительной технике — она называется двоичным кодированием и основана на представлении данных последовательностью всего двух знаков: 0 и 1. Эти знаки называются двоичными цифрами, по-английски — binary digit, или, сокращенно, bit (бит).

Одним битом могут быть выражены два понятия: 0 или 1 (да или нет, черное или белое, истина или ложь и т. п.). Если количество битов увеличить до двух, то уже можно выразить четыре различных понятия:


00 01 10 11


Тремя битами можно закодировать восемь различных значений:


000 001 010 01l 100 101 110 111


Увеличивая на единицу количество разрядов в системе двоичного кодирования, мы увеличиваем в два раза количество значений, которое может быть выражено в данной системе.


^ Кодирование целых и действительных чисел


Для кодирования целых чисел от 0 до 255 достаточно иметь 8 разрядов двоичного кода (8 бит).


0000 0000 = 0

0000 0001 = 1

…………………


1111 1110 = 254

1111 1111 = 255


Шестнадцать бит позволяют закодировать целые числа от 0 до 65535, а 24 бита — уже более 16,5 миллионов разных значений.

Для кодирования действительных чисел используют 80-разрядное кодирование. При этом число предварительно преобразуется в нормализованную форму:


3,1415926 = 0,31415926 • 101

300 000 = 0,3 • 106

123 456 789 = 0,123456789 • 109


Первая часть числа называется мантиссой, а вторая — характеристикой. Боль­шую часть из 80 бит отводят для хранения мантиссы (вместе со знаком) и некоторое фиксированное количество разрядов отводят для хранения характеристики (тоже со знаком).


^ Кодирование текстовых данных


Если каждому символу алфавита сопоставить определенное целое число (напри­мер порядковый номер), то с помощью двоичного кода можно кодировать и тек­стовую информацию. Восьми двоичных разрядов достаточно для кодирования 256 различных символов. Этого хватит, чтобы выразить различными комбинациями восьми битов все символы английского и русского алфавитов, как строчные, так и прописные, а также знаки препинания, символы основных арифметических дей­ствий и некоторые общепринятые специальные символы, например символ «§».

Технически это выглядит очень просто, однако всегда существовали достаточно веские организационные сложности. В первые годы развития вычислительной тех­ники они были связаны с отсутствием необходимых стандартов, а в настоящее время вызваны, наоборот, изобилием одновременно действующих и противоречивых стан­дартов. Для того чтобы весь мир одинаково кодировал текстовые данные, нужны единые таблицы кодирования, а это пока невозможно из-за противоречий между символами национальных алфавитов, а также противоречий корпоративного харак­тера.

Для английского языка, захватившего де-факто нишу международного средства общения, противоречия уже сняты. Институт стандартизации США (ANSI — American National Standard Institute) ввел в действие систему кодирования ASCII (American Standard Code for Information Interchange — стандартный код информа­ционного обмена США). В системе ASCII закреплены две таблицы кодирования: базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.

Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств (в первую очередь производителям компьютеров и печатаю­щих устройств). В этой области размещаются так называемые управляющие коды, которым не соответствуют никакие символы языков, и, соответственно, эти коды не выводятся ни на экран, ни на устройства печати, но ими можно управлять тем, как производится вывод прочих данных.

Начиная с кода 32 по код 127 размещены коды символов английского алфавита, знаков препинания, цифр, арифметических действий и некоторых вспомогатель­ных символов. Базовая таблица кодировки ASCII приведена в таблице 1.1.


^ Таблица 1.1. Базовая таблица кодировки ASCII





Аналогичные системы кодирования текстовых данных были разработаны и в дру­гих странах. Так, например, в СССР в этой области действовала система кодиро­вания КОИ-7 (код обмена информацией, семизначный). Однако поддержка произ­водителей оборудования и программ вывела американский код ASCII на уровень международного стандарта, и национальным системам кодирования пришлось «отступить» во вторую, расширенную часть системы кодирования, определяющую значения кодов со 128 по 255. Отсутствие единого стандарта в этой области привело к множественности одновременно действующих кодировок. Только в России можно указать три действующих стандарта кодировки и еще два устаревших.

Так, например, кодировка символов русского языка, известная как кодировка Windows-1251, была введена «извне» — компанией Microsoft, но, учитывая широ­кое распространение операционных систем и других продуктов этой компании в России, она глубоко закрепилась и нашла широкое распространение (таблица 1.2). Эта кодировка используется на большинстве локальных компьютеров, работаю­щих на платформе Windows. Де-факто она стала стандартной в российском секторе World Wide Web.


^ Таблица 1.2. Кодировка Windows 1251





Другая распространенная кодировка носит название КОИ-8 (код обмена информа­цией, восьмизначный) — ее происхождение относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы (таблица 1.3). На базе этой кодировки ныне действуют кодировки КОИ8-Р (русская) и КОИ8-У (украинская). Сегодня кодировка КОИ8-Р имеет широкое распространение в ком­пьютерных сетях на территории России и в некоторых службах российского сектора Интернета. В частности, в России она де-факто является стандартной в сооб­щениях электронной почты и телеконференций.

Международный стандарт, в котором предусмотрена кодировка символов русского алфавита, носит название кодировки ISO (International Standard Organization — Международный институт стандартизации). На практике данная кодировка используется редко (таблица 1.4).


^ Таблица 1.3. Кодировка КОИ-8





Таблица 1.4. Кодировка ISO





На компьютерах, работающих в операционных системах MS-DOS, могут действо­вать еще две кодировки (кодировка ГОСТ и кодировка ГОСТ-альтернативная). Первая из них считалась устаревшей даже в первые годы появления персональной вычислительной техники, но вторая используется и по сей день (см. таблицу 1.5).


^ Таблица 1.5. ГОСТ-альтернативная кодировка





В связи с изобилием систем кодирования текстовых данных, действующих в Рос­сии, возникает задача межсистемного преобразования данных — это одна из рас­пространенных задач информатики.


^ Универсальная система кодирования текстовых данных


Если проанализировать организационные трудности, связанные с созданием еди­ной системы кодирования текстовых данных, то можно прийти к выводу, что они вызваны ограниченным набором кодов (256). В то же время очевидно, что если, например, кодировать символы не восьмиразрядными двоичными числами, а чис­лами с большим количеством разрядов, то и диапазон возможных значений кодов станет намного больше. Такая система, основанная на 16-разрядном кодировании символов, получила название универсальной — UNICODE. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65536 различных символов — этого поля достаточно для размещения в одной таблице символов большинства языков планеты.

Несмотря на тривиальную очевидность такого подхода, простой механический переход на данную систему долгое время сдерживался из-за недостаточных ресур­сов средств вычислительной техники (в системе кодирования UNICODE все тек­стовые документы автоматически становятся вдвое длиннее). Во второй половине 90-х годов технические средства достигли необходимого уровня обеспеченности ресурсами, и сегодня мы наблюдаем постепенный перевод документов и программ­ных средств на универсальную систему кодирования. Для индивидуальных пользо­вателей это еще больше добавило забот по согласованию документов, выполненных в разных системах кодирования, с программными средствами, но это надо понимать как трудности переходного периода.


^ Кодирование графических данных


Если рассмотреть с помощью увеличительного стекла черно-белое графическое изображение, напечатанное в газете или книге, то можно увидеть, что оно состоит из мельчайших точек, образующих характерный узор, называемый растром (рис. 1.9).




Рис. 1.9. Растр — это метод кодирования графической информации, издавна принятый в полиграфии


Поскольку линейные координаты и индивидуальные свойства каждой точки (яркость) можно выразить с помощью целых чисел, то можно сказать, что растро­вое кодирование позволяет использовать двоичный код для представления гра­фических данных. Общепринятым на сегодняшний день считается представление черно-белых иллюстраций в виде комбинации точек с 256 градациями серого цвета, и, таким образом, для кодирования яркости любой точки обычно достаточно восьмиразрядного двоичного числа.

Для кодирования цветных графических изображений применяется принцип деком­позиции произвольного цвета на основные составляющие. В качестве таких состав­ляющих используют три основных цвета: красный (Red, R), зеленый (Green, G) и синий (Blue, В). На практике считается (хотя теоретически это не совсем так), что любой цвет, видимый человеческим глазом, можно получить путем механического смешения этих трех основных цветов. Такая система кодирования называется системой RGB по первым буквам названий основных цветов.

Если для кодирования яркости каждой из основных составляющих использовать по 256 значений (восемь двоичных разрядов), как это принято для полутоновых черно-белых изображений, то на кодирование цвета одной точки надо затратить 24 разряда. При этом система кодирования обеспечивает однозначное определе­ние 16,5 млн различных цветов, что на самом деле близко к чувствительности чело­веческого глаза. Режим представления цветной графики с использованием 24 дво­ичных разрядов называется полноцветным (True Color).

Каждому из основных цветов можно поставить в соответствие дополнительный цвет, то есть цвет, дополняющий основной цвет до белого. Нетрудно заметить, что для любого из основных цветов дополнительным будет цвет, образованный сум­мой пары остальных основных цветов. Соответственно, дополнительными цветами являются: голубой (Cyan, С), пурпурный (Magenta, М) и желтый (Yellow, Y). Прин­цип декомпозиции произвольного цвета на составляющие компоненты можно при­менять не только для основных цветов, но и для дополнительных, то есть любой цвет можно представить в виде суммы голубой, пурпурной и желтой составляю­щей. Такой метод кодирования цвета принят в полиграфии, но в полиграфии используется еще и четвертая краска — черная (Black, К). Поэтому данная система кодирования обозначается четырьмя буквами CMYK (черный цвет обозначается буквой К, потому что буква В уже занята синим цветом), и для представления цвет­ной графики в этой системе надо иметь 32 двоичных разряда. Такой режим тоже называется полноцветным (True Color).

Если уменьшить количество двоичных разрядов, используемых для кодирования цвета каждой точки, то можно сократить объем данных, но при этом диапазон коди­руемых цветов заметно сокращается. Кодирование цветной графики 16-разряд­ными двоичными числами называется режимом High Color.

При кодировании информации о цвете с помощью восьми бит данных можно пере­дать только 256 цветовых оттенков. Такой метод кодирования цвета называется индексным. Смысл названия в том, что, поскольку 256 значений совершенно недо­статочно, чтобы передать весь диапазон цветов, доступный человеческому глазу, код каждой точки растра выражает не цвет сам по себе, а только его номер (индекс) в некоей справочной таблице, называемой палитрой. Разумеется, эта палитра дол­жна прикладываться к графическим данным — без нее нельзя воспользоваться мето­дами воспроизведения информации на экране или бумаге (то есть, воспользоваться, конечно, можно, но из-за неполноты данных полученная информация не будет адек­ватной: листва на деревьях может оказаться красной, а небо — зеленым).


^ Кодирование звуковой информации


Приемы и методы работы со звуковой информацией пришли в вычислительную технику наиболее поздно. К тому же, в отличие от числовых, текстовых и графических данных, у звукозаписей не было столь же длительной и проверенной исто­рии кодирования. В итоге методы кодирования звуковой информации двоичным кодом далеки от стандартизации. Множество отдельных компаний разработали свои корпоративные стандарты.

1   2   3   4   5   6   7   8   9   10   ...   99

Схожі:

Информатика для юристов iconEccle для европейских юристов
Программа предназначена для молодых юристов и специалистов, которая предоставляет уникальную возможность получить образование и профессиональные...
Информатика для юристов iconLegal Source
Это отличный источник информации для юристов, ученых, предпринимателей, библиотекарей, студентов-юристов, практикующих адвокатов...
Информатика для юристов iconКонкурс на участие в дистанционном обучении адвокатов/юристов
Объявляется набор для участия в программе дистанционного обучения адвокатов и юристов международному праву прав человека
Информатика для юристов iconЛетняя программа eccle для европейских юристов
Программа предоставляет возможность получить знания и профессиональные навыки для молодых юристов и специалистов. Летняя программа...
Информатика для юристов iconМетодические указания для выполнения лабораторных, самостоятельных и контрольных работ по курсу «Информатика и компьютерная техника»
«Информатика и компьютерная техника» (для студентов 1-го и 2-го курсов заочной формы обучения образовательно-квалификационного уровня...
Информатика для юристов iconМетодические указания к выполнению самостоятельной работы по дисциплине «информатика и системология»
«Информатика и системология» (для студентов 1 курса дневной формы обучения направления 040106 «Экология, охрана окружающей среды...
Информатика для юристов iconУчебные пособия по дисциплинам «Информатика в Украине» и«Математика»
В этом году у вас появилась возможность стать первыми студентами факультета компьютерных наук и технологий Доннту по направлению...
Информатика для юристов iconКонспект лекций для студентов заочной формы обучения направления 080201 (Информатика) Сумы, 2007 Содержание
Предлагаемый конспект лекций представляет собой пособие по предмету “Теория информации”, который читается в Сумском государственном...
Информатика для юристов iconСтипендиальные программы для юристов, университет Стратклайда, Великобритания Окончательный термин подачи документов
Иностранные студенты, поступающие на программы магистратуры (research) и аспирантуры юридического факультета могут претендовать на...
Информатика для юристов iconМетодические указания к практическим занятиям " Обработка данных медицинских исследований в Excel" по дисциплине "Медицинская информатика" специальности 110101 "Лечебное дело" для иностранных студентов дневной формы обучения
Методические указания к практическим занятиям “Обработка данных медицинских исследований в Excel” по дисциплине “Медицинская информатика”...
Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©zavantag.com 2000-2013
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи