Текстовая информация
Таблица 2.1. Фрагмент кодовой таблицы |
В качестве примера кодирования получим машинный код текста, состоящего из одного слова «КОМПЬЮТЕР». Этот текст состоит из 9 символов, следовательно, для его хранения требуется 9 байт памяти. Используя табл. 2.1, для каждого сим- вола легко получить соответствующий ему двоичный код. Остается только запи- сать найденные коды в группу подряд расположенных байтов памяти. В табл. 2.2 приведен полученный таким образом машинный код этого текста В первой строке таблицы указаны порядковые номера байтов памяти, в которых записан текст, во второй — символы, из которых текст состоит, а в третьей — машинные, двоичные коды символов. Таким образом, текст «КОМПЬЮТЕР» в вычислительной машине представлен двоичным кодом: «1000 1010 1000 1110 1000 1100 1000 1111 1001 1100 1000 1110 1001 0010 1000 0101 1001 00002».
Таблица 2.2. Машинный код текста «КОМПЬЮТЕР» |
ВНИМАНИЕ----------------------------------------------------------------------------------- Пробелы между четверкам» двоичных цифр вставляются только для удобства их вос- приятия, чтения человеком, и в память компьютера они, естественно, не записываются. Обратите внимание на то, что в табл. 2.1 приведены коды заглавных букв. Строч- ные буквы имеют другие коды. Например, код буквы «а» имеет вид 1010 00002, в то время как код буквы «А» — 1000 00002. Не случайно рассматриваемое слово записано именно в таком виде — машинный код слова «КОМПЬЮТЕР» отли- чается от машинного кода слова «компьютер». Знать кодовую таблицу наизусть не нужно. Только в очень редких случаях при- ходится пользоваться приведенными в ней кодами символов. Все необходимые преобразования от символов к их кодам и назад — от кодов к символам — про- изводятся компьютером автоматически.
Вместе с тем необходимо помнить о том, что существует много различных кодовых таблиц и что различные программы могут использовать для записи текстов раз- личные таблицы. А в разных кодовых таблицах один и тот же код может соответс- твовать разным символам. Так, например, двоичный код 1000 10102 соответствует символу «К» только в так называемой «Гост-альтернативной» кодовой таблице. Именно ее фрагмент приведен в табл. 2.1. А в другой популярной кодовой таб- лице с названием Windows 1251 этот же двоичный код служит для обозначения символа «JЪ». Следовательно, текст, записанный какой-либо программой в одной кодовой таблице, может быть искажен при ero чтении с помощью другой програм- мы. Если приведенный выше код слова «КОМПЬЮТЕР» попытаться прочитать с помощью программы, которая использует кодовую таблицу Windows 1251, то ом будет представлен «словом» «JЬђіЫ,ішіі'х1)». Правомерно задать вопрос: «А зачем нужны различные кодовые таблицы, раз они могут приводит!, к такой путанице?» Дело в том, что если учесть все возможные буквы, встречающиеся в национальных алфавитах только, например, европейских стран, все возможные символы, которые встречаются в математических и других специальных текстах, то двухсот пятидесяти шести символов, которые могут быть закодированы описанным выше способом, окажется явно мало. Поэтому и разработано большое количество различных кодировочных таблиц. Для решения этой проблемы была разработана и все шире используется кодовая таблица с названием UNICODE (UNIversaJ CODE — универсальный код), в ко- торой для кода одного символа отводится два байта, а не один, как в рассмот- ренных выше таблицах. Сразу же бросается в глаза очевидный недостаток этой кодировки — требуется ровно в два раза больше места в памяти, чем при записи в однобайтных кодировках. Так, для слова «КОМПЬЮТЕР» теперь потребуется не 9, а 18 байтов. Но в связи с тем, что память становится нее более дешевой, этот недостаток становится все менее значимым. Очевидно и преимущество этой кодировки: с помощью двух байтов, то есть 16 разрядов, можно закодировать 216 = 65 536 различных символов, а не 2R = 256 символов однобайтных кодировок. 7а кого количества вполне достаточно для того, чтобы представить большинство из встречающихся во всевозможных текстах символов[2]. Использование кодовых таблиц для представления различных текстов в памяти компьютера решает только часть проблемы. Если более внимательно посмотреть на текст, скажем, в газете, журнале или книге, можно заметить, что практически любой текст содержит те или иные элементы оформления. Символы, из которых он состоит, могут иметь разные размеры и разное начертание. Они могут быть наклонными, подчеркнутыми, выделенными жирным шрифтом и т. д. По-разному могут быть оформлены абзацы и страницы текста. На странице могут находиться номера, колонтитулы, сноски. Все эти, а также и многие другие элементы оформле- ния текста при его записи в память компьютера также нуждаются в определенном кодировании. Разработано много различных текстовых форматов — конкретных способов кодирования символов текста и фиксации элементов его оформления. ВНИМАНИЕ----------------------------------------------------------------------------------- Текстовый формат определяет одну или несколько кодовых таблиц, которые ис- пользуются для кодирования символов текста, а также полную совокупность воз- можностей и правил его оформления. В частности, можно упомянуть общепринятый, «понятный» подавляющему боль- шинству работающих с текстами программ формат TXT (от text — текст). Этот формат практически не содержит никаких элементов оформления текста. Заметим, что именно поэтому с данным форматом могут работать очень многие программы. Значительно более сложным, но также довольно распространенным является фор- мат RTF (от Rich Text Format — богатый текстовый формат), который содержит совокупность стандартных возможностей по оформлению текстов. Подавляющее большинство используемых в современной практике возможностей по оформле- нию текстов включено в формат DОС (от document — документ). 2.1.2.Еще по теме Текстовая информация:
- 2. ИСТОЧНИКИ ИНФОРМАЦИИ. СПЕЦИФИКА И АЛГОРИТМЫ РАБОТЫ С ИСТОЧНИКАМИ ИНФОРМАЦИИ. ДОСТУП К ИСТОЧНИКАМ ИНФОРМАЦИИ. ПРАВОВЫЕ И ЭТИЧЕСКИЕ НОРМЫ РАБОТЫ С ИСТОЧНИКАМИ ИНФОРМАЦИИ.
- Журналистика как массово-информационная деятельность. Понятия «информация» и «массовая информация». Массовая информация как продукт массово-информационной деятельности. Массовая информация и социальная информация.
- 10.2. Правовая защита интересов личности, общества, государства от угроз воздействия недоброкачественной информации, от нарушения порядка распространения информации
- Статья 362. Несанкционированные действия с информацией, обрабатывается в электронно-вычислительных машинах (компьютерах), автоматизированных системах, компьютерных сетях или сохраняется на носителях такой информации, совершенные лицом, имеет право доступа к ней
- Статья 361-2. Несанкционированные сбыт или распространение информации с ограниченным доступом, которая сохраняется в электронно-вычислительных машинах (компьютерах), автоматизированных системах, компьютерных сетях или на носителях такой информации
- Структура массово-информационной деятельности: сбор, обработка, компоновка, передача, восприятие, трансформация, хранение и использование массовой информации. Потенциальная, принятая и реальная информация. Семантический, синтаксический и прагматический аспекты массово-информационных текстов.
- 1. ЖУРНАЛИСТИКА КАК МАССОВО-ИНФОРМАЦИОННАЯ ДЕЯТЕЛЬНОСТЬ. ИНФОРМАЦИЯ И ЕЕ ВИДЫ. МАССОВАЯ ИНФОРМАЦИЯ. СТРУКТУРА МАССОВО-ИНФОРМАЦИОННОЙ ДЕЯТЕЛЬНОСТИ
- 2. Информация и ее виды.
- ИНФОРМАЦИЯ: ОБРАБОТКА ПОСЛЕДОВАТЕЛЬНАЯ (
- Информация
- ИНФОРМАЦИЯ: ОБРАБОТКА ПАРАЛЛЕЛЬНАЯ
- Статья 200. Информация