<<
>>

Кодирование информации

Информация - это сведения об окружающем мире и протекающих в нем процессах, воспринимаемые человеком или специализированным устройством, например компьютером, для обеспечения целенаправленной деятельности.

Информация может быть по своей физической природе числовой, текстовой, графической, звуковой и др. Она также может быть постоянной (не меняющейся), переменной, случайной, вероятностной. Наибольший интерес представляет переменная информация, так как она позволяет выявить причинно-следственные связи в процессах и явлениях. Существуют различные способы оценки количества информации. Классическим является подход, использующий формулу К. Шеннона. Применительно к двоичной системе она имеет вид:

Н = ^2 N

где Н - количество информации, несущей представление о состоянии, в котором находится объект;

N - количество равновероятных альтернативных состояний объекта.

Любая информация, обрабатываемая в компьютере, должна быть представлена двоичным кодом, т.е.

должна быть закодирована комбинацией цифр 0, 1. Различные виды информации (числа, тексты, графика, звук) имеют свои правила кодирования. Коды отдельных значений, относящиеся к различным видам информации, могут совпадать. Поэтому расшифровка кодированных данных осуществляется по контексту при выполнении команд программы.

Представление числовой информации в компьютере. В компьютерах используются три вида чисел: с фиксированной точкой (запятой), с плавающей точкой (запятой) и дво

ично-десятичное представление. Точка (запятая) - это подразумеваемая граница целой и дробной частей числа.

Все современные компьютеры имеют центральный процессор или центральное процессорное устройство - CPU, Central Processing Unit, предназначенное для обработки чисел с фиксированной точкой.

Одной из важнейших его характеристик является разрядность n - количество двоичных разрядов, представляющих значение числа. Основным достоинством CPU служит простота алгоритмов выполнения операций и, соответственно, высокая скорость операций.

У чисел с фиксированной точкой в двоичном формате предполагается строго определенное место точки (запятой). Обычно это место определяется или перед первой цифрой числа или после последней цифры числа. Если точка фиксируется перед первой значащей цифрой, то это означает, что число по модулю меньше единицы. Диапазон изменения значений чисел определяется неравенством:

Если точка фиксируется после последней цифры, то это означает, что п-разрядные двоичные числа являются целыми. Диапазон изменения их значений составляет:

Перед самым старшим из возможных цифровых разрядов двоичного кода фиксируется его знак. Положительные числа имеют нулевое значение знакового разряда, отрицательные - единичные. Каждая цифра {0,1} занимает один бит соответствующего п- разрядного формата.

Существенным недостатком представления чисел с фиксированной точкой служит тот факт, что аппроксимация малых чисел связана с большой относительной ошибкой. Для чисел, приближающихся по величине к максимально возможным (2п), относительная ошибка уменьшается. Абсолютная же ошибка представления чисел с фиксированной точкой всегда лежит в одних и тех же пределах независимо от величины чисел.

Другой формой представления чисел является представление их в виде чисел с плавающей точкой (запятой). Представление чисел с плавающей точкой необходимо использовать, когда обрабатываемые числа имеют очень большой диапазон изменения. Эта ситуация типична для научно-технических расчетов (тригонометрические, экспоненты, логарифмы).

Поэтому все современные микропроцессоры в дополнение к CPU содержат математические сопроцессоры. Их обычно называют блоками или устройствами с плавающей точкой - FPU, Floating Point Unit, или числовым расширением процессора - NPX, Numeric Processor extension. Сочетание параллельно работающих CPU и FPU позволяет добиться большей скорости и большей точности вычислений.

Числа с плавающей точкой представляются в виде мантиссы та и порядка ра, иногда это представление называют полулогарифмической формой числа. Например,

число А10 = 373 можно представить в виде 0.373 -103, при этом та = 0.373, ра = 3, основание системы счисления подразумевается фиксированным и равным 10. Для двоичных чисел А2 в этом представлении также формируется та и порядок ра при основании системы исчисления, равном 2

Л2 =±ра; ± та,

что соответствует записи

А = 2±Га • (±та).

Порядок числа определяет положение точки (запятой) в двоичном числе. Значение порядка лежит в диапазоне - ра < ра < ра , где величина ра определяется числом разрядов г, отведенных для представления порядка

= 2г -1.

Положительные и отрицательные значения порядка значительно усложняют обработку вещественных чисел. Поэтому во многих современных ЭВМ используют не прямое значение ра, а модифицированное р'а, приведенное к интервалу

тах

0 < Ра < 2Ра .

Значение ра носит название «характеристики числа».

Обычно под порядок (модифицированный порядок - характеристику) выделяют один байт. Старший разряд характеристики отводится под знак числа, а семь оставшихся разрядов обеспечивают изменение порядка в диапазоне

- 64 < ра < 63 .

Модифицированный порядок ра вычисляется по зависимости

р'а = ра + 64.

Тим самым значения ра формируются в диапазоне положительных чисел

0 < р'а < 127.

Мантисса числа та представляется двоичным числом, у которого точка фиксируется перед старшим цифровым разрядом, т. е.

где к - число разрядов, отведенных для представления мантиссы. Если

то старший разряд мантиссы в системе счисления с основанием N отличен от нуля. Такое число называется нормализованным. Например, А2 = (100;0.101101)2 - нормализованное

число A2 = 1011.01 или A10 = 11.25, а то же самое число А2 = (101;0.0101101)2 - число ненормализованное, так как старший разряд мантиссы равен 0.

Диапазон представления нормализованных чисел с плавающей точкой определяется

где r и к - соответственно количество разрядов, используемых для представления порядка и мантиссы.

Третья форма представления двоичного кода - двоично-десятичная. Ее появление объясняется следующим.

При обработке больших массивов десятичных чисел (например, больших экономических документов) приходится тратить существенное время на перевод этих чисел из десятичной системы счисления в двоичную для последующей обработки и обратно - для вывода результатов. Каждый такой перевод требует выполнения двухчетырех десятков машинных команд. С включением в состав отдельных ЭВМ специальных функциональных блоков или спецпроцессоров десятичной арифметики появляется возможность обрабатывать десятичные числа напрямую, без их преобразования, что сокращает время вычислений. При этом каждая цифра десятичного числа представляется двоичной тетрадой. Например, А10 = 3759А2-10 = 0011 0111 0101 1001. Положение десятичной точки (запятой), отделяющей целую часть от дробной, обычно заранее фиксируется. Значение знака числа отмечается кодом, отличным от кодов цифр. Например, «+» имеет значение тетрады «1100», а «-» - «1101».

Представление нечисловых видов информации. До последнего времени практически все системы связи России, системы передачи аудио- и видеоинформации, включая центральное радио и телевидение, строились на принципах передачи аналоговой информации. Это подразумевало выполнение процедур модуляции (преобразования данных в высокочастотные сигналы при передаче) и демодуляции для обратного преобразования и воспроизведения принятых данных.

С развитием микроэлектроники и компьютерных технологий все большее распространение получают цифровые системы передачи данных. В их основу положены процедуры квантования аналоговой информации по времени и величине. Значения функции y=f(t) измеряются с большой точностью в моменты времени 0, At, 2At,..nAt (At = const). Эта последовательность дискретных измерений пересылается абоненту, у которого по ним воссоздается значение функции. Качество воспроизведения функции y = f(t) при At^-0 может быть очень высоким. Более подробно эти вопросы освещаются в п. 1.4.

По скорости изменения обрабатываемых цифровых данных информацию можно разделить на два вида: статический и динамический.

Например, числовая, логическая и символьная информация является статической - ее значение не связано со временем. В отличие от перечисленных типов вся аудиоинформация имеет динамический характер. Она существует только в режиме реального времени, ее нельзя остановить для более подробного изучения. Если изменить масштаб времени (увеличить или уменьшить), аудиоинформация искажается. Это свойство иногда используется для получения звуковых эффектов.

Видеоинформация может быть как статической, так и динамической. Статическая видеоинформация включает текст, рисунки, графики, чертежи, таблицы и др. Рисунки делятся также на плоские - двухмерные и объемные - трехмерные.

Динамическая видеоинформация - это видео-, мульт- и слайд- фильмы. В их основе лежит последовательное экспонирование на экране в реальном масштабе времени отдельных кадров в соответствии со сценарием.

Динамическая видеоинформация используется либо для передачи движущихся изображений (анимация), либо для последовательной демонстрации отдельных кадров вывода (слайдфильмы).

Для демонстрации анимационных и слайдфильмов используются различные принципы. Анимационные фильмы демонстрируются так, чтобы зрительный аппарат человека не мог зафиксировать отдельные кадры.

При демонстрации слайд-фильмов каждый кадр экспонируется на экране столько времени, сколько необходимо для восприятия его человеком (обычно от 30 с. до 1 мин.). Слайдфильмы можно отнести к статической видеоинформации.

По способу формирования видеоизображения бывают растровые, матричные и векторные. Растровые видеоизображения используются в телевидении, в компьютерах практически не применяются.

Матричные изображения получили в ЭВМ наиболее широкое распространение. Изображение на экране рисуется электронным лучом точками. Информация представляется в виде характеристик значений каждой точки - пиксела (picture element), рассматриваемой как наименьшей структурной единицей изображения. Количество высвечиваемых одновременно пикселов на экране дисплея определяется его разрешающей способностью. В качестве характеристик графической информации выступают координаты точки (пиксела) на экране, цвет пиксела, цвет фона (градация яркости). Вся эта информация хранится в видеопамяти дисплея. При выводе графической информации на печать изображение также воспроизводится по точкам.

Изображение может быть и в векторной форме. Тогда оно составляется из отрезков линий (в простейшем случае - прямых), для которых задаются начальные координаты, угол наклона и длина отрезка (может указываться и код используемой линии). Векторный способ имеет ряд преимуществ перед матричным: изображение легко масштабируется с сохранением формы, является «прозрачным», может быть наложено на любой фон и т.д.

Интенсивное развитие информационных технологий предполагает объединение самых различных систем (компьютерных, сетевых, информационных систем связи и т.п.) для решения задач формирования, хранения, обработки и преобразования данных. Способы представления информации в отдельных согласованно работающих устройствах, кодирование и преобразование в них кодов зависят от типов данных, принятых стандартов, принципов действия отдельных устройств,

Представление текстовой информации. При формировании любого текстового (символьного) документа характерно последовательное использование нескольких видов кодировок и их преобразований. Например, при вводе информации с клавиатуры каждое нажатие клавиши, на которой изображен требуемый символ, вызывает появление так называемого scan-кода, представляющего собой двоичное число, равное порядковому номеру клавиши.

Сам номер нажатой клавиши никак не связан с формой символа, нанесенного на клавишу. Опознание символа по его scan-коду и присвоение ему внутреннего кода компьютера производится специальной программой - кодировщиком (драйвером). Соответствие scan-кодов клавиш и кодов представления символов внутри компьютера образует так называемую кодовую таблицу символов. Внутреннее представление символьных данных в компьютере полностью определяется особенностями построения этих кодовых таблиц.

Бурное развитие сетевых технологий, в частности Internet, привело к интеграции очень многих технических, программных и информационных систем с большим количе

ством стандартов, использующих совершенно разные коды, а соответственно, и разные таблицы кодировок.

Только для русских текстов широко используются кодировки: KOI-7 и KOI-8r, ASCII, ANSI, Win1251, ISO-8859, кодировка ГОСТ, кодировка ГОСТ - альтернативная (СР866) и др.

Стандарты КОИ - 7 (код обмена информацией, 7-ми битовый) и KOI-8r (восьмибитовый) используются, в основном, в почтовых сообщениях) в E-mail. Они широко использовались и продолжают применяться на постсоветском пространстве.

До недавнего времени, когда удельный вес приложений MS DOS был определяющим, наиболее часто использовался стандарт ASCII - American Standard Code for Information Interchange - американский стандартный код передачи информации. Принцип построения данной системы кодирования отражается таблицей 2.

Таблица2

Таблица кодировки ASCII

Всего с помощью таблицы ASCII можно закодировать 28 = 256 различных символов. Она разделена на две части: основную базовую или стандартную (с кодами от 00h до 7Fh) и дополнительную (от 80h до FFh, где буква h обозначает принадлежность кода к шестнадцатеричной системе счисления).

Первая половина таблицы стандартизована под английский алфавит. Она содержит управляющие коды (от 00h до 20h и 77h). Эти коды в таблице занимают две строки. Далее размещаются знаки пунктуации и математические знаки: 21h - !, 26h - &, 28h - (, 2Bh - +, и т.д., а также прописные и строчные буквы латинского алфавита: 41h - A, 61h - a,...

Вторая половина таблицы содержит национальные символы алфавитов, символы псевдографики, из которых могут быть построены таблицы, специальные математические знаки. Данную часть таблицы кодировок можно заменять, используя соответствующие драйверы. Этот прием позволяет применять несколько шрифтов и их гарнитур. Различные версии второй половины таблицы называются расширениями ASCII, применительно к национальным алфавитам их еще часто называют кодовыми страницами - CP (Code Page).

Дисплей по коду символа должен вывести на экран его изображение - не просто цифровой код, а соответствующую ему картинку, так как каждый символ имеет свою форму.

Описание формы каждого символа хранится в специальной памяти дисплея - знакогенераторе.

Высвечивание символа на экране дисплея IBM PC осуществляется с помощью точек, образующих символьную матрицу. Этот процесс представлен на рис. 6.

Рис. 6. Пример формирования символа на экране дисплея

Каждый пиксел в такой матрице является элементом изображения и может быть ярким или темным. Темная точка кодируется цифрой 0, светлая (яркая) - 1.

Если изображать в матричном поле знака темные пикселы точкой, а светлые - звездочкой, то можно графически изобразить форму символа.

Появление операционной среды Windows с графическим интерфейсом потребовало изменение стандарта и введения другой кодовой таблицы ANSI (American National Standard Institute - институт стандартизации США). Графический интерфейс Windows реализует векторный принцип отображения данных на экране дисплея, что позволяет использовать масштабируемые шрифты True Type. По сравнению с таблицей ASCII в ANSI изменилось размещение символов и отсутствуют символы псевдографики, так как в графическом интерфейсе они не нужны. Учитывая успех фирмы Microsoft в продажах на российском рынке своего программного обеспечения, фирмой была разработана русская кодовая страница CP-1251 (Windows-1251), получившая широкое признание и ставшая стандартом de facto.

Кодировка ISO-8859 (кодировка фирмы Sun), хотя и принята в качестве ГОСТа, но практически в стандартных приложениях не используется.

Обилие кодовых страниц привело к трудностям адекватного воспроизведения текстовой информации, разработке различных программ-перекодировщиков. Сообщество фирм Unicode предложило новую систему кодирования, основанную на 16-разрядном кодировании символов. В двухбайтовом представлении отпадает необходимость использования отдельных кодовых таблиц и их перекодировок. Таблица Unicode позволяет дать уникальный номер любому символу всех национальных алфавитов (216=65536 символов). Для компенсации возрастающих объемов памяти под программные продукты, представленные в Unicode, при хранении и пересылках файлов используются процедуры «сжатия» (архивации) данных. Этот стандарт приобретает все большую популярность.

Представление графических данных. Методы кодирование графики и цвета во многом определяются способами передачи цвета и его оттенков (полутонов). Для формирования цвета отдельных пикселов используется его декомпозиция на составляющие цвета. Имеется несколько подобных систем:

- основная система RGB (Red, Green, Blue) использует разложение цвета и смешение трех цветов: красного, зеленого и синего в различных пропорциях;

- дополнительная (альтернативная) система CMY (Cyan, Magenta, Yellow) предполагает смешение голубого, пурпурного и желтого цветов;

- полиграфическая CMYK, использующая добавление к предыдущей системе четвертого цвета - черного (Ь1асК).

Если для передачи оттенков (полутонов) каждого из основных цветов использовать один байт (28 = 256 градаций), то имеется возможность формировать 28х28х28=224 различных цветов, более 16,77х106 цветов для первых двух систем и более 4х109 для полиграфической системы. Такой режим представления графики называется полноцветным - True Color.

Статические кадры с графикой служат основой для создания анимационных систем. В современных высококачественных мониторах и в телевизорах с цифровым управлением электронно-лучевой трубкой цветные кадры с графикой сменяются до 70 раз и более в секунду, что позволяет высококачественно передавать движение объектов.

Высокое качество передачи графических образов и видеоинформации сопряжено с повышенным потреблением ресурсов памяти. Поэтому разработан целый ряд стандартов, создающих файлы в форматах *.bmp, *.jpg, *.png и др. Различие всех этих стандартов и файлов заключается в качестве (точности) передачи образов и объемах создаваемых файлов.

Представление звуковой информации. Кодирование аудиоинформации - процесс более сложный. Изначально аудиоинформация является аналоговой. Для преобразования ее в цифровую форму используют аппаратные средства - аналого-цифровые преобразователи (АЦП), в результате работы которых аналоговый сигнал оцифровывается, то есть представляется в виде числовой последовательности. Для вывода оцифрованного звука на аудиоустройства необходимо проводить обратное преобразование, которое осуществляется с помощью цифро-аналоговых преобразователей (ЦАП).

Одним из самых популярных стандартов для передачи и воспроизведения звука был и остается MP3, обеспечивающий компактность МР3-файлов, высокое качество звука и простоту использования. Однако держатели патентов корпорация Thomson и Frauenhofer Institut ввели новый платный порядок использования стандарта, что немедленно вызвало разработку альтернативных бесплатных стандартов.

1.6.

<< | >>
Источник: А.П. Пятибратов, Л.П. Гудыно, А.А. Кириченко. Вычислительные машины, сети и телекоммуникационные системы. 2009

Еще по теме Кодирование информации:

  1. 2.6. Правила кодирования
  2. Положительное кодирование.
  3. ПРИНЦИП КОДИРОВАНИЯ СПЕЦИФИЧЕСКОГО
  4. СХЕМЫ ВОЗДЕЙСТВИЯ ПРИ КОДИРОВАНИИ ЧЕЛОВЕКА
  5. 2. ИСТОЧНИКИ ИНФОРМАЦИИ. СПЕЦИФИКА И АЛГОРИТМЫ РАБОТЫ С ИСТОЧНИКАМИ ИНФОРМАЦИИ. ДОСТУП К ИСТОЧНИКАМ ИНФОРМАЦИИ. ПРАВОВЫЕ И ЭТИЧЕСКИЕ НОРМЫ РАБОТЫ С ИСТОЧНИКАМИ ИНФОРМАЦИИ.
  6. Журналистика как массово-информационная деятельность. Понятия «информация» и «массовая информация». Массовая информация как продукт массово-информационной деятельности. Массовая информация и социальная информация.
  7. 10.2. Правовая защита интересов личности, общества, государства от угроз воздействия недоброкачественной информации, от нарушения порядка распространения информации
  8. Статья 362. Несанкционированные действия с информацией, обрабатывается в электронно-вычислительных машинах (компьютерах), автоматизированных системах, компьютерных сетях или сохраняется на носителях такой информации, совершенные лицом, имеет право доступа к ней
  9. Статья 361-2. Несанкционированные сбыт или распространение информации с ограниченным доступом, которая сохраняется в электронно-вычислительных машинах (компьютерах), автоматизированных системах, компьютерных сетях или на носителях такой информации
  10. Структура массово-информационной деятельности: сбор, обработка, компоновка, передача, восприятие, трансформация, хранение и использование массовой информации. Потенциальная, принятая и реальная информация. Семантический, синтаксический и прагматический аспекты массово-информационных текстов.
  11. 1. ЖУРНАЛИСТИКА КАК МАССОВО-ИНФОРМАЦИОННАЯ ДЕЯТЕЛЬНОСТЬ. ИНФОРМАЦИЯ И ЕЕ ВИДЫ. МАССОВАЯ ИНФОРМАЦИЯ. СТРУКТУРА МАССОВО-ИНФОРМАЦИОННОЙ ДЕЯТЕЛЬНОСТИ
  12. ИНФОРМАЦИЯ: ОБРАБОТКА ПОСЛЕДОВАТЕЛЬНАЯ (
  13. Информация
  14. ИНФОРМАЦИЯ: ОБРАБОТКА ПАРАЛЛЕЛЬНАЯ
  15. Статья 200. Информация
  16. 3. Массовая информация.
  17. 2. Информация
  18. 2. Информация и ее виды.