Одно из основных практических применений программы OCR Pad — чистка и склейка (доработка) текста после программ распознавания текста. OCR Pad – незаменимый помощник при оцифровке книг.
Основные возможности:
1. Полная поддержка юникодов.
Плюс 5 виртуальных клавиатур: греческая, математическая, западно-европейская, восточно-европейская и разные экзотические символы.
2. Поиск плохих слов по списку пользователя. Двух типов: как рекурсивный (с показом каждого найденного слова), так и молчаливая отметка всех найденных слов.
3. Find/Replace c полной юникодной поддержкой и поиском по регулярным выражениям (RegExp). Поддерживается сохранение четырех отдельных историй поиска/замены (запоминает до 50-ти последних Find/Replace для каждой из четырех):
поиск: обычная история и история RegExp
замена: обычная история и история RegExp
Окна истории открываются нажатием на кнопки со стрелкой вниз. Когда открыто окно истории, правый клик внутри окна обеспечивает доступ к меню менеджера истории.
3. Массовые замены по списку пользователя: Edit -> Book Cleaner. Book Cleaner тоже полностью юникодный и с RegExp. Кроме того, в него вставлено окно комментария, куда можно записать “кто есть кто”.
Большое число доп. опций Book Cleaner доступно через правый клик. Доступны два правокликовых меню, довольно обширных. Если кликнуть на окно таблицы замен, то появятся опции для манипулирования с таблицей, если же кликнуть на окно комментария — появится меню для его редактирования.
Также я не поленился написать шесть жизненных примеров для работы с Book Cleaner: load -> 1.bcf, 2.bcf и т.д. Прежде, чем начать работу с Book Cleaner, рекомендую в них разобраться. Для того, чтобы было удобно читать текст комментария к загруженному примеру — правый клик
-> show in window.
RegExp — это мощная игрушка, а те, кто в них разобрался — смогут делать ну очень много. Вообщем, настоятельно рекомендую, разберетесь — сразу почувствуете разницу. Тем более, что инструмент для экспериментирования теперь под рукой: открываете Find/Replace, отмечаете RegExp, вводите свое выражение, затем find — и сразу видно результат.
В принципе, в RegExp разобраться несложно, но разработка RegExp-скриптов требует внимательности и тчательной отладки. Поэтому при написании своих файлов для Book Cleaner рекомендуется их отлаживать по строкам. Для этого есть колонка use: применяться будут только те
выражения, где use отмечено.
Ну а тем, кто хочет узнать побольше о RegExp — подробная справка по его теории и практике доступна через “help -> regular expressions”. Там объединены две справки: русскоязычная — от Грибова и англоязычная — от Билла.
4. Ну и для кучи сделал вставку картинок: “Insert -> picture”
P.S. Еще в основном окне есть две кнопки, со стрелками вверх и вниз. Это для точного перелистывания страниц.
P.P.S. Да, забыл сказать. Не пользуйте Find/Replace и Book Cleaner в режиме показа невидимых символов (конца строки и nbsp): могут быть сбои.
P.P.P.S. В примерах Book Cleaner файлов про hex-номера написал, а вот про специфику RegExp-поиска русских букв и другой экзотики по hex-номерам — забыл сказать . Это нечасто нужно, но на всякий случай…
Делается так. Курсор ставится перед символом, после чего на второй панели статуса появляется его hex-номер. Если номер содержит меньше 4 цифр — то впереди добавляются нули. Затем к получившейся цифре добавляется \u и это выражение используется в RegExp.
Например, русская Ц. На статусе высвечивается hex: 426. Следовательно, для задания Ц в RegExp надо использовать \u0426.
Другой пример: греческая маленькая альфа. На статусе — hex: 3b1 . Для RegExp — \u03b1
Третий пример: двойной интеграл из математической клавиатуры. На статусе — hex: 222c . Для RegExp — \u222c.
По поводу юникодной RegExp-специфики довольно подробно расписано в справке от Билла.
Leave a Reply