<<
>>

Автоматическое распознавание текстов

После ввода документа с помощью сканера в памяти компьютера создается графический образ документа, представляющий собой, как уже отмечалось, всего лишь набор разноцветных точек. Поэтому требуется распознавание текста.
Современные программы распознавания достаточно уверенно распознают даже весьма вычурные тексты на одном или нескольких языках, иногда даже рукописные. Из программ, способных распознавать тексты на русском языке, наиболее известна программа Fine Reader отечественной разработки. Она может распознавать тексты на русском, английском, немецком, французском, украинском и многих других языках, а также смешанные двуязычные тексты; работать с разными моделями сканеров и с пакетами документов или многостраничными документами; объединять сканирование и распознавание в единую операцию; способна к обучению для распознавания сложных или неразборчивых шрифтов. Программа Fine Reader также распознает бланки, т. е. отформатированные документы, в поля которых внесены данные (например, анкеты, бюллетени для голосования, опросные листы). Бланки состоят из постоянной части, в которой содержится информация, используемая при заполнении бланка, и переменной части, в которую в ходе заполнения заносятся данные. Часто приходится последовательно обрабатывать многие тысячи однотипных бланков (результаты голосования или опроса).

В программе используется оконная технология, причем на экране отображается строка меню, ряд панелей инструментов и рабочая область документа. Преобразование исходного бумажного документа осуществляется в три этапа:

1) сканирование, в результате которого изображение преобразуется в цифровую форму;

2) требуемая сегментация текста, так как исходный текст может иметь сложный формат, например располагаться в несколько колонок,

332


перемежаться рисунками и подписями к ним; поэтому для распознавания необходимо выделить сегменты (блоки) с цельными фрагментами однородного текста; сегментация может выполняться автоматически или полуавтоматически (с «подсказкой» пользователя);

3) собственно распознавание, которое обычно выполняется автоматически, если не требуется обучение.

Распознаваемый текст отображается в отдельном окне на экране монитора и может редактироваться и форматироваться независимо от исходного текста. Цветом будут выделены те символы, которые программа считает неоднозначно опознанными. Полученный в результате распознавания текст можно сохранить в виде форматированного или неформатированного документа.

10.1.

<< | >>

Еще по теме Автоматическое распознавание текстов:

  1. 7. ЖУРНАЛИСТСКИЙ ТЕКСТ. КРИТЕРИИ АДЕКВАТНОСТИ ЖУРНАЛИСТСКОГО ТЕКСТА. СЕМАНТИЧЕСКИЙ, СИНТАКСИЧЕСКИЙ, ПРАГМАТИЧЕСКИЙ АСПЕКТЫ ЖУРНАЛИСТСКОГО ТЕКСТА. СПЕЦИФИКА ЭФФЕКТИВНОСТИ ЖУРНАЛИСТСКОГО ТЕКСТА
  2. Распознавание образа допрашиваемого
  3. ПИСЬМО АВТОМАТИЧЕСКОЕ
  4. ДЕЙСТВИЕ АВТОМАТИЧЕСКОЕ
  5. ПОДСОЗНАНИЕ - АВТОМАТИЧЕСКИЙ МЕХАНИЗМ ТВОРЧЕСТВА
  6. 13.1.4. Автоматический предохранитель
  7. Распознавание типологической принадлежности убийцы-серийника
  8. 5.2. Психолингвистический анализ как метод распознавания и идентификации преступник а
  9. 5.2. Психолингвистический анализ как метод распознавания и идентификации преступник а
  10. 7.2. Судебно-психологическая аутопсия как метод экспертного распознавания суицида