Урок 59. Распознавание документа

Приводить в порядок документ, распознанный в ABBYY FineReade – неблагодарное занятие. Я дам несколько советов, которые помогут облегчить распознавание документа и дальнейшую работу с ним.

По окончании урока вы сможете:

  1. Настроить ABBYY FineReade
  2. Повторить алгоритм работы с распознанным документом

Откройте программу ABBYY FineReade. Подготовьте какой-нибудь документ *.pdf для распознавания.

1. Настройка ABBYY FineReade

Шаг 1. Настраиваем формат распознавания (лента Инструменты → команда Настройка → закладка Настройка форматов в диалоговом окне Настройка):

распознавание документа

Снимаем галочки с команд:

  1. Сохранять колонтитулы и номера страниц
  2. Сохранять деление на страницы

В самом деле: зачем нам номера страниц из исходного документа? Ещё неизвестно, в каком виде они распознаются. Бывает, что и виде графических объектов. А номера страниц расставит правильно. И от колонтитулов дополнительно избавляться не надо будет.

Шаг 2. Открываем окно «Редактор стилей» (лента Инструменты → команда Редактор стилей»):

распознавание документа

Шаг 3. Уничтожаем все стили (команда Объединить → кнопка выпадающего меню с выбор имени стиля):

распознавание документа

Шаг 4. Выбираем имя стиля (любое на ваше усмотрение) → команда Выбрать:

распознавание документа

Шаг 5. Передаём текст в Word (выбрать вид Форматированный текст → команда Передать):

распознавание документа

2. Алгоритм работы с распознанным документом

Смотрим на документ и видим кучу стилей. Из моего опыта: если не удалить стили в программе ABBYY FineReade, то удалить ненужные стили в программе Word будет проблематично. Но я работаю, далеко не в последней версии ABBYY FineReade. Вполне возможно, что в последних версиях такого казуса нет. Но не пожалейте время на 5-секундную операцию. А теперь по порядку.

Шаг 1. Открываем окно Импорт-экспорт (кнопка Инспектор стилей в рабочей области Стили → кнопка Импорт-экспорт):

импорт-зкспорт стилей

Шаг 2. Удаляем все стили (выделяем стили в окне Из Документа → кнопка Удалить → кнопка Закрыть):

импорт-зкспорт стилей

Если в рабочей области «Стили» перечень солидный, то скорее всего документ открыт в режиме «Рекомендованные стили» (спасибо разработчикам Word’а за заботу).

Шаг 3. Устанавливаем стили только для текущего документа (кнопка Параметры в рабочей области Стили → кнопка выпадающего меню в поле Отображаемые стили → режим В текущем документе):

область стилей

Вот уже легче:

область стилей

Шаг 4. Устанавливаем одноколоночный текст (выделяем весь текст Ctrl+A → лента Макет → команда Колонки → команда Одна колонка из выпадающего меню):

колонки в тексте

Конечно, может повезти, и многоколоночный текст не образуется при распознавании, но на всякий случай.

Шаг 5. Удаляем лишние непечатаемые символы.

  1. Разрывы разделов:
Замена символов

2. Разрывы страниц:

Замена символов

3. Мягкий перенос:

Замена символов

Непечатаемый символ «Мягкий перенос» образуется, если в распознаваемом документе были переносы

4. Знак табулятора на пробел:

Замена символов

5. Два пробела на пробел

Замена символов

Вполне возможно, что вам придётся повторить эту операцию несколько раз, так как при выравнивании текста по ширине в распознаваемом документе, могут быть большие промежутки между словами. ABBYY FineReade заботливо заполняет эти промежутки большим количеством пробелов.

6. Два символа конца абзаца на один символ конца абзаца:

Замена символов

Вполне возможно, что вам придётся повторить эту операцию несколько раз аналогично предыдущей операции.

7. Удаление графических объектов (хорошо, что разработчики Word предусмотрели эту возможность):

Замена символов

В таблице я показывала, что на что надо менять:

  Поле «Найти» Поле «Заменить на…»
1 Разрыв раздела Пусто
2 Разрыв страницы Пусто
3 Мягкий перенос Пусто
4 Знак табулятора Пробел
5 Два пробела Пробел
6 Два символа конца абзаца Один символ конца абзаца
7. Графический объект Пусто

Шаг 6. Применение набора стилей (лента Конструктор → группа команд Форматирование документа → кнопка выпадающего меню → пользовательский набор стилей):

набор стилей

Шаг 7. Установка параметров границы печатного поля (лента Макет → группа команд Параметры страницы → команда Поля → команда Настраиваемые поля из выпадающего меню):

  1. Границы печатного поля для страницы
  2. Положение колонтитулов
границы печатного поля

Всё, документ готов к форматированию.

Теперь вы сможете:

  1. Настроить ABBYY FineReade
  2. Повторить алгоритм работы с распознанным документом

Ещё остались таблицы. Если в документе не больше трёх таблиц, то нетрудно отформатировать их вручную. А если 50 таблиц? Вот об этом будет следующий урок. Заодно состоится первое знакомство макросами.

2 Comments on Урок 59. Распознавание документа

  1. Если в «Шаг 5. Передаём текст в Word (выбрать вид Форматированный текст → команда Передать)» выбрать вид «Простой текст» — удалять стили из последующего ворд-документа не придется.

    • Вы правы. Но есть несколько нюансов.
      1. Лишь в последних версиях ABBYY FineReader таблица передается в Word как таблица в режиме «Простого текста». Раньше таблица передавалась в виде текста.Я могу из текста восстановить таблицу (Урок 56), но восстановить сложную таблицу, в которой есть объединенные ячейки, проблематично.
      2. В режиме «Простой текст» весь текст документа сплошной. А в режиме «Форматированный текст» сохраняется внешнее форматирование заголовков, и тогда я могу воспользоваться командой лента Главная → группа команд Редактирование → команда Выделить → команда Выделить весь текст с одинаковым форматированием. Выделяются все абзацы жирного начертания, которым я присваиваю стиль «Заголовок». Сразу видна структура документа.
      Так что режим «Простой текст» имеет смысл применять, когда распознается несколько страниц. Мне приходится работать с документами от 60 страниц и выше. На поиск заголовков в сплошном тексте уйдёт больше времени, чем при работе по моему алгоритму (проверяла несколько раз). Другой разговор, что я должна была упомянуть о режиме «Простой текст» в уроке и заострить внимание на его преимуществах и недостатках. Так что спасибо за замечание и извините за задержку с ответом: очень много работы, а ответить хотелось обстоятельно. С уважением, Елена

Комментировать