Автоматическое распознавание текстов
После ввода документа с помощью сканера в памяти компьютера создается графический образ документа, представляющий собой, как уже отмечалось, всего лишь набор разноцветных точек. Поэтому требуется распознавание текста. Современные программы распознавания достаточно уверенно распознают даже весьма вычурные тексты на одном или нескольких языках, иногда даже рукописные. Из программ, способных распознавать тексты на русском языке, наиболее известна программа Fine Reader отечественной разработки. Она может распознавать тексты на русском, английском, немецком, французском, украинском и многих других языках, а также смешанные двуязычные тексты; работать с разными моделями сканеров и с пакетами документов или многостраничными документами; объединять сканирование и распознавание в единую операцию; способна к обучению для распознавания сложных или неразборчивых шрифтов. Программа Fine Reader также распознает бланки, т. е. отформатированные документы, в поля которых внесены данные (например, анкеты, бюллетени для голосования, опросные листы). Бланки состоят из постоянной части, в которой содержится информация, используемая при заполнении бланка, и переменной части, в которую в ходе заполнения заносятся данные. Часто приходится последовательно обрабатывать многие тысячи однотипных бланков (результаты голосования или опроса). В программе используется оконная технология, причем на экране отображается строка меню, ряд панелей инструментов и рабочая область документа. Преобразование исходного бумажного документа осуществляется в три этапа:
1) сканирование, в результате которого изображение преобразуется в цифровую форму;
2) требуемая сегментация текста, так как исходный текст может иметь сложный формат, например располагаться в несколько колонок,