<<
>>

Текстовая информация

При хранении в компьютере любой текст (документ, статья, книга) рассматри- вается как линейная последовательность символов. Причем промежутки между отдельными словами также считаются некими спецназьными символами.
Каждому символу из этой последовательности ставится в соответствие конкретный дво- ичный код, состоящий из восьми двоичных разрядов. Таким образом, код каждого символа текста занимает ровно один байт памяти. Следовательно, текст целиком занимает столько байт памяти машины, из скольких символов он состоит. Списки всех используемых при записи текстов символов и соответствующих им двоичных кодов образуют так называемые кодовые таблицы. В информатике применяются различные кодовые таблицы. Одной из наиболее часто используе- мых является кодовая таблица ASCII (от American Standard Code for Information Interchange — американский стандартный код для обмена информацией), которая в настоящее время фактически стала общемировым стандартом. В эту таблицу входят коды строчных и заглавных латинских букв, коды для цифр, знаков препинания, различных математических символов, символов, которыми можно рисовать в текстах таблицы и т.
д. А всего в ней зафиксированы коды для 128 различных символов. Список этих символов и соответствующие им восьмиразрядные двоичные коды образуют основную (базовую) кодовую таблицу ASCII. Но, как было выяснено ранее, один байт может содержать 256 различных двоичных кодов, состоящих из восьми бит. Это означает, что в стандарте ASCII задействована только половина возможных кодов. Имеются различные рас- ширения основной кодовой таблицы ASCII, в которых задаются коды еще для 128 символов, в том числе для и символов различных национальных алфавитов. Фрагмент одного из расширений кодовой таблицы ASCII, включающий буквы русского алфавита — кириллицы, приведен в табл.
2.1.
Таблица 2.1. Фрагмент кодовой таблицы

В качестве примера кодирования получим машинный код текста, состоящего из одного слова «КОМПЬЮТЕР». Этот текст состоит из 9 символов, следовательно, для его хранения требуется 9 байт памяти. Используя табл. 2.1, для каждого сим- вола легко получить соответствующий ему двоичный код. Остается только запи- сать найденные коды в группу подряд расположенных байтов памяти. В табл. 2.2 приведен полученный таким образом машинный код этого текста В первой строке таблицы указаны порядковые номера байтов памяти, в которых записан текст, во второй — символы, из которых текст состоит, а в третьей — машинные, двоичные коды символов. Таким образом, текст «КОМПЬЮТЕР» в вычислительной машине представлен двоичным кодом: «1000 1010 1000 1110 1000 1100 1000 1111 1001 1100 1000 1110 1001 0010 1000 0101 1001 00002».

Таблица 2.2. Машинный код текста «КОМПЬЮТЕР»

ВНИМАНИЕ----------------------------------------------------------------------------------- Пробелы между четверкам» двоичных цифр вставляются только для удобства их вос- приятия, чтения человеком, и в память компьютера они, естественно, не записываются. Обратите внимание на то, что в табл. 2.1 приведены коды заглавных букв. Строч- ные буквы имеют другие коды. Например, код буквы «а» имеет вид 1010 00002, в то время как код буквы «А» — 1000 00002. Не случайно рассматриваемое слово записано именно в таком виде — машинный код слова «КОМПЬЮТЕР» отли- чается от машинного кода слова «компьютер». Знать кодовую таблицу наизусть не нужно. Только в очень редких случаях при- ходится пользоваться приведенными в ней кодами символов. Все необходимые преобразования от символов к их кодам и назад — от кодов к символам — про- изводятся компьютером автоматически.

Вместе с тем необходимо помнить о том, что существует много различных кодовых таблиц и что различные программы могут использовать для записи текстов раз- личные таблицы. А в разных кодовых таблицах один и тот же код может соответс- твовать разным символам. Так, например, двоичный код 1000 10102 соответствует символу «К» только в так называемой «Гост-альтернативной» кодовой таблице. Именно ее фрагмент приведен в табл. 2.1. А в другой популярной кодовой таб- лице с названием Windows 1251 этот же двоичный код служит для обозначения символа «JЪ». Следовательно, текст, записанный какой-либо программой в одной кодовой таблице, может быть искажен при ero чтении с помощью другой програм- мы. Если приведенный выше код слова «КОМПЬЮТЕР» попытаться прочитать с помощью программы, которая использует кодовую таблицу Windows 1251, то ом будет представлен «словом» «JЬђіЫ,ішіі'х1)». Правомерно задать вопрос: «А зачем нужны различные кодовые таблицы, раз они могут приводит!, к такой путанице?» Дело в том, что если учесть все возможные буквы, встречающиеся в национальных алфавитах только, например, европейских стран, все возможные символы, которые встречаются в математических и других специальных текстах, то двухсот пятидесяти шести символов, которые могут быть закодированы описанным выше способом, окажется явно мало. Поэтому и разработано большое количество различных кодировочных таблиц. Для решения этой проблемы была разработана и все шире используется кодовая таблица с названием UNICODE (UNIversaJ CODE — универсальный код), в ко- торой для кода одного символа отводится два байта, а не один, как в рассмот- ренных выше таблицах. Сразу же бросается в глаза очевидный недостаток этой кодировки — требуется ровно в два раза больше места в памяти, чем при записи в однобайтных кодировках. Так, для слова «КОМПЬЮТЕР» теперь потребуется не 9, а 18 байтов. Но в связи с тем, что память становится нее более дешевой, этот недостаток становится все менее значимым. Очевидно и преимущество этой кодировки: с помощью двух байтов, то есть 16 разрядов, можно закодировать 216 = 65 536 различных символов, а не 2R = 256 символов однобайтных кодировок.
7а кого количества вполне достаточно для того, чтобы представить большинство из встречающихся во всевозможных текстах символов[2]. Использование кодовых таблиц для представления различных текстов в памяти компьютера решает только часть проблемы. Если более внимательно посмотреть на текст, скажем, в газете, журнале или книге, можно заметить, что практически любой текст содержит те или иные элементы оформления. Символы, из которых он состоит, могут иметь разные размеры и разное начертание. Они могут быть наклонными, подчеркнутыми, выделенными жирным шрифтом и т. д. По-разному могут быть оформлены абзацы и страницы текста. На странице могут находиться номера, колонтитулы, сноски. Все эти, а также и многие другие элементы оформле- ния текста при его записи в память компьютера также нуждаются в определенном кодировании. Разработано много различных текстовых форматов — конкретных способов кодирования символов текста и фиксации элементов его оформления. ВНИМАНИЕ----------------------------------------------------------------------------------- Текстовый формат определяет одну или несколько кодовых таблиц, которые ис- пользуются для кодирования символов текста, а также полную совокупность воз- можностей и правил его оформления. В частности, можно упомянуть общепринятый, «понятный» подавляющему боль- шинству работающих с текстами программ формат TXT (от text — текст). Этот формат практически не содержит никаких элементов оформления текста. Заметим, что именно поэтому с данным форматом могут работать очень многие программы. Значительно более сложным, но также довольно распространенным является фор- мат RTF (от Rich Text Format — богатый текстовый формат), который содержит совокупность стандартных возможностей по оформлению текстов. Подавляющее большинство используемых в современной практике возможностей по оформле- нию текстов включено в формат DОС (от document — документ). 2.1.2.
<< | >>
Источник: А. Н. Степанов. Информатика Базовый курс для студентов гуманитарных специальностей высших учебных заведений 6-е издание. 2010

Еще по теме Текстовая информация:

  1. 2. ИСТОЧНИКИ ИНФОРМАЦИИ. СПЕЦИФИКА И АЛГОРИТМЫ РАБОТЫ С ИСТОЧНИКАМИ ИНФОРМАЦИИ. ДОСТУП К ИСТОЧНИКАМ ИНФОРМАЦИИ. ПРАВОВЫЕ И ЭТИЧЕСКИЕ НОРМЫ РАБОТЫ С ИСТОЧНИКАМИ ИНФОРМАЦИИ.
  2. Журналистика как массово-информационная деятельность. Понятия «информация» и «массовая информация». Массовая информация как продукт массово-информационной деятельности. Массовая информация и социальная информация.
  3. 10.2. Правовая защита интересов личности, общества, государства от угроз воздействия недоброкачественной информации, от нарушения порядка распространения информации
  4. Статья 362. Несанкционированные действия с информацией, обрабатывается в электронно-вычислительных машинах (компьютерах), автоматизированных системах, компьютерных сетях или сохраняется на носителях такой информации, совершенные лицом, имеет право доступа к ней
  5. Статья 361-2. Несанкционированные сбыт или распространение информации с ограниченным доступом, которая сохраняется в электронно-вычислительных машинах (компьютерах), автоматизированных системах, компьютерных сетях или на носителях такой информации
  6. Структура массово-информационной деятельности: сбор, обработка, компоновка, передача, восприятие, трансформация, хранение и использование массовой информации. Потенциальная, принятая и реальная информация. Семантический, синтаксический и прагматический аспекты массово-информационных текстов.
  7. 1. ЖУРНАЛИСТИКА КАК МАССОВО-ИНФОРМАЦИОННАЯ ДЕЯТЕЛЬНОСТЬ. ИНФОРМАЦИЯ И ЕЕ ВИДЫ. МАССОВАЯ ИНФОРМАЦИЯ. СТРУКТУРА МАССОВО-ИНФОРМАЦИОННОЙ ДЕЯТЕЛЬНОСТИ
  8. 2. Информация и ее виды.
  9. ИНФОРМАЦИЯ: ОБРАБОТКА ПОСЛЕДОВАТЕЛЬНАЯ (
  10. Информация
  11. ИНФОРМАЦИЯ: ОБРАБОТКА ПАРАЛЛЕЛЬНАЯ
  12. Статья 200. Информация