Вы здесьМои алгоритмы работы с FR11
Опубликовано сб, 04/08/2012 - 03:35 пользователем golma1
Последнее время часто стали возникать вопросы по поводу работы с ФР. Я много раз описывала свои методы - в личке, в форуме. Я большой приверженец работы с ФР. С хорошими исходными файлами он позволяет максимально подготовить текст для экспорта сразу в fb2. Текст во многом писался для друзей, поэтому периодически встречается обращение на "ты". После распознавания сохраните документ ФР. Продолжение: Файл fb2, полученный из FR11
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Telly RE:Подайте бедному копеечку на книжку с литреса... 8 часов
babajga RE:Удивленная сова 3 дня Larisa_F RE:Серия «Квадрат» издательства «Текст» 5 дней Aleks_Sim RE:Беженцы с Флибусты 5 дней edvud RE:Прошу переформатировать, распознать, etc... 5 дней monochka RE:С 8 Марта! 1 неделя babajga RE:Книга чуДОМищ 1 неделя ProstoTac RE:Подборка о Первой Мировой 1 неделя babajga RE:Нержавеющая сабля 1 неделя sem14 RE:«Уроки русского» 2 недели Isais RE:Древний Рим. Подборка книг 2 недели kopak RE:О группе Дятлова. О той самой, того самого... 2 недели babajga RE:Отчаянная осень 2 недели babajga RE:Сказки Сени Малины 2 недели babajga RE:Сказки 2 недели babajga RE:Мои четвероногие друзья 2 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели Isais RE:Семейственность в литературе 3 недели Впечатления о книгах
Barbud про Черемис: Первая кровь (Попаданцы, Самиздат, сетевая литература)
15 03 Очень нудное писево. Герой - унылый предпенсионер-неудачник без талантов и особых умений, попавший в себя-студента. Действие разворачивается крайне неторопливо, прочитал уже мало не четверть первой книги, а у ГГ еще не закончился ……… Оценка: плохо
Олег Макаров. про Астахов: Без брака (Детективы: прочее)
15 03 после того, как Устинова стала писать вместе с этим товарисчем, читать стало просто невозможно.
Alligatoreader про Циркин: Политическая история Римской империи (История)
15 03 Пожалуй, лучшая работа профессора Циркина, хоть автор и создавал её в весьма преклонном возрасте. Связно, чётко, подробно, понятно и без лишней идеологической шелухи. Большое спасибо выложившему! Второй том, посвящённый ………
neletay про Веркин: Остров Сахалин (Постапокалипсис)
15 03 Это потрясающая книга. Современный постап все-таки в основном беллетристика, часто косая и хромая. А "Сахалин" - настоящая литература. Я очень рада, что прочитала ее. Теперь хочу купить бумажную, чтобы она у меня была живьем.
Oleg68 про Куанг: Республика Дракон [litres] (Героическая фантастика, Фэнтези)
15 03 Интересное продолжение приключений Рин Оценка: отлично!
Lan2292 про Шаман: Клан Борзых: Приемыш (Постапокалипсис, Самиздат, сетевая литература)
14 03 Как интересно начиналось, а потом такая тягамотина, бросила. Оценка: неплохо
Fornit про Хволкер: Фанфик по Overlords (Фанфик, Самиздат, сетевая литература)
14 03 50. Бабаджанян Василий Алибабаевич 2025/03/14 18:18 [ответить] Был такой автор - "хволкер". Написал ничё так фентези: http://flibusta.is/a/248212 Но украинизм головного моска ударил ………
clomeron про Маас: Дом Земли и Крови [litres] (Детективная фантастика, Городское фэнтези, Любовная фантастика)
14 03 Ну это для совсем уж невзыскательных читателей.) Оценка: нечитаемо
clomeron про Пехов: Ветер и искры [сборник : с иллюстрациями ; litres] (Фэнтези)
13 03 Топовое фэнтези. Автор большой молодец. Оценка: отлично!
clomeron про Пехов: Страж [тетралогия] (Фэнтези)
13 03 Это одна из вершин творчества признанного мастера русского фэнтези. Всякие там Мартины и прости Господи Аберкромби нервно курят в углу.))) Оценка: отлично!
clomeron про Аберкромби: Дурацкие задания [The Fool Jobs ru] (Фэнтези)
13 03 Ну и кому вообще нужен этот рассказ? Оценка: нечитаемо
clomeron про Аберкромби: Прежде, чем их повесят [Before They Are Hanged ru] (Фэнтези)
13 03 Трэш средней степени паршивости Оценка: нечитаемо |
Комментарии
Отв: Мои алгоритмы работы с FR11
Напряженка с поиском возникает и от стандартного ударения и от выделения ударных букв жирным курсивом (как любят делать на HL). Поэтому еще один элемент, мешающий поиску, погоды не делает.
Отв: Мои алгоритмы работы с FR11
Так-то оно так.
Кстати, в FBE и HaaliReader поиск слов с выделением болдом и/или курсивом таки вполне нормально работает.
А вот в FBReader, AlReader и обоих CooReader — увы.
Отв: Мои алгоритмы работы с FR11
Новая версия скрипта, ищущего ошибки OCR: http://rusfolder.com/32482905
###
В нём разрывы абзацев, обрабатываемые скриптами FBE выделены в отдельную группы и помещены под спойлер: вы можете решить, хотите ли исправить их на этапе распознавания в ФР или уже в самом FBE.
Кроме того, улучшено детектирование скриптов.
###
Этот скрипт, кроме поиска разрывов абзацев внутри страницы, находит разрывы абзацев страницей, что частенько может ускользнуть от внимания OCR-щика.
Только что запустила его на файл новой книги - более 40 проблемных мест. И если глаза могут что-то пропустить, то скрипт - ни за что. ;)
В общем, перфекционистам всячески рекомендую. :)
Отв: Мои алгоритмы работы с FR11
У меня этот скрипт стабильно валится с такой ошибкой:
Сценарий: c:\_FBEditor\Script\spotter.vbs
Строка: 236
Символ: 5
Ошибка: Индекс выходит за пределы допустимого диапазона: 'nStrLen'
Код: 800A0009
Источник: Ошибка выполнения Microsoft VBScript
Отв: Мои алгоритмы работы с FR11
Хммм...
А где Вы его запускаете? Это скрипт - НЕ для ФБЕ.
Не надо его в директорию ФБЕ копировать. Просто распакуйте архив куда-нибудь, где Вам удобно, и там запустите. И примените его на текстовом файле, полученном из ФР (опции см. выше).
Отв: Мои алгоритмы работы с FR11
Применять на .fb2, но не в FBE, просто запустив скрипт в cmd, подставив ему имя файла .fb2 как аргумент в командной строке?
Отв: Мои алгоритмы работы с FR11
Есть новая версия этого скрипта. Она работает с файлами, экспортированными из ФР (сохранить как...). Для нее нужно сохранить проект в txt, html, rtf - с определенными опциями. Занимает даже на 600-страничном проекте меньше минуты.
Потом на эту троицу запускается скрипт (у него нормальный интерфейс, не нужно никакой командной строки, он на Дельфи, если я не ошибаюсь). Он работает порядка минуты, анализируя результаты, и выдаёт протокол. Как подробно смотреть протокол - каждый решает для себя. Я обращаю внимание только на разрыв абзаца страницей (когда в конце предыдущей страницы стоит точка) и на разрыв абзаца на точке в конце строки.
Но скрипт умеет больше: он видит "пропущенные" сноски (которые визуально не выделяются, если предварительно не работать со стилями, как я выше описывала), видит нарушение расположения блоков текста (иногда бывает вокруг картинки не во всю страницу) и ещё кучу мелочей.
Если интересует, могу выложить последнюю версию и опции для сохранения документа ФР.
Отв: Мои алгоритмы работы с FR11
Попробуйте эту версию: http://rusfolder.com/32499403
И сохраните всё же скрипт в другом месте, не внутри ФБЕ.
Для всех пользователей скрипта:
В этой версии разрыв абзаца, обрабатываемый скриптами в ФБЕ, не спрятан в спойлер, а выделен другим цветом (зелёным). То есть, если вы не собираетесь исправлять такие места в ФР, просто игнорируйте. Для тех же, кто хочет исправить разрыв уже на этой стадии, отпадает необходимость раскрывать спойлер.
Отв: Мои алгоритмы работы с FR11
Отв: Мои алгоритмы работы с FR11
Вот, попробуйте здесь:
https://www.rapidshare.com/files/3103890321/spotter_2.20.zip
Отв: Мои алгоритмы работы с FR11
Вот, попробуйте здесь:
https://www.rapidshare.com/files/3103890321/spotter_2.20.zip
Спасибо! Здесь скачалось.
Отв: Мои алгоритмы работы с FR11
А вот у меня, как и с предыдущими двумя версиями, выскакивает вот это

Хотя лог и hta создаются
--------
Интересно, находил ли кто-нибудь разорванные абзацы после прогонки скриптом?
Отв: Мои алгоритмы работы с FR11
Дружище tvnic!
Уважаемая golma1 внятно писала, что в случае, ежели название вашего файла на КИРИЛЛИЦЕ, да с пробелами внутри скрипт его не сможет вывести на дисплей. Не беда. HTA-файлы запускаються простым "тюк-тюк" мышкой в обозревателе. (Возможно операционка спросит кое о чем. Надо ответить утвердительно.) Либо НЕ ИСПОЛЬЗОВАТЬ кириллицу в названии TXT-файла. Вчитывайтесь в то, что пишет уважаемая golma1 - и будут всё в порядке.
- двоих-то я точно знаю. :)
И поверьте - когда и у вас получится - мало не покажется!
Удачи!
Отв: Мои алгоритмы работы с FR11
Я не имел в виду - сколько ошибок найдет скрипт. В этом я не сомневаюсь - сам убедился.
А ВСЕ ли ошибки он вылавливает?
Отв: Мои алгоритмы работы с FR11
Это уже довольно продвинутые версии, основные ошибки учтены. Но если Вы что-то заметите, пишите.
В последних мною "по старинке" (визуально) проверенных файлов, пропущенных мест не было. Сейчас работа идёт больше над уменьшением "ложных" срабатываний. Но и их уже не так много.
Отв: Мои алгоритмы работы с FR11
Конечно, в этом случае напишу. Но лучше, чтобы не пришлось это делать. Тогда и для глаз работы меньше.
Отв: Мои алгоритмы работы с FR11
Предположительно, да. Даже есть лишние.
На сейчас - "узкое место" - когда абзац разрывается страницей со сносками. Но в этом случае - всё равно глазами смотреть надо.
Работа ведёться, как по сокращению "ложных срабатываний" так и по детектированию сносок.
Отв: Мои алгоритмы работы с FR11
Точно! Я как раз зашла, чтобы написать о сносках.
Только что столкнулась с ситуацией, когда из-за сноски не был увиден "разрыв абзаца страницей".
Отв: Мои алгоритмы работы с FR11
В любом случае скрипт очень полезный и нужный.
А стыки страниц - не такая уж проблема - знаешь где смотреть. На мой взгляд важнее отловить разрывы внутри страницы (100 % :) ), чтобы не искать их глазами.
Отв: Мои алгоритмы работы с FR11
+500! Постоянно твержу об этом нашему уважаемому разработчику. Но он перфекционист, ему всё равно. ;)
Внутри страницы отлавливаются все. Проверено на 15-20 файлах. После этого проверять перестала.
Отв: Мои алгоритмы работы с FR11
Если так, то бальзам на душу. Теперь об этой стороне распознавания/вычитки можно забыть. Естественно, предварительно применив данный скрипт.
Отв: Мои алгоритмы работы с FR11
Предположительно последняя версия скрипта (в этом виде): http://rusfolder.com/32538257
Уменьшено количество ложных срабатываний за счёт учитывания подзаголовков типа "* * *" и заголовков типа "Глава..."
Если значительных ошибок не будет замечено, работа над ним приостановлена.
В планах - модификация скрипта с расширением функциональности (сроки не обозначены).
Отв: Мои алгоритмы работы с FR11
Скрипт очень полезен и в таком виде. С функциональностью можно и потерпеть :)
Вопрос к golma1, как опытнейшему распознавальщику. В среднем как много Вам в одной книге попадается склеенных абзацев?
Отв: Мои алгоритмы работы с FR11
В последней версии значительно меньше, чем в предыдущей. Порой - ни одного.
Но, поскольку время от времени они всё же встречаются, проверяю в каждой книге всё равно.
Отв: Мои алгоритмы работы с FR11
В сегодняшней книге (580 стр.) нашёлся всего один. Причём склеился на точке, проверка которой занимает наибольшее время:
Казалось бы, одним склеенным абзацем на 580 страниц можно было бы пренебречь, но у перфекционистов жизнь тяжёлая... :(
Было ещё одно место, где в диалоге "-Да." приклеилось к предыдущей реплике, но такие места (мне) сразу видны, я их вылавливаю на первом этапе - при просмотре страниц.
Отв: Мои алгоритмы работы с FR11
Ясно.
Ведь качество сканов именно на количество склеенных абзацев не влияет? Это уже ФР грешит.
И где удобнее сравнивать - в ФР (там в окне "Текст" строки бывают перекошены) или ПДФ с ФБ2?
Отв: Мои алгоритмы работы с FR11
Ээээ... что-то я растерялась. Сравнивать?
Искать склеенные абзацы нужно при помощи метода ТаКира (выше описано). В ФР, после основного этапа распознавания (просматривания страниц и расстановки служебных пометок).
Отв: Мои алгоритмы работы с FR11
Честно говоря, думал, что после этого метода не мешало бы глазами проверить. Или это лишнее?
Отв: Мои алгоритмы работы с FR11
Абсолютно лишнее. :)
Не помню, писала ли я выше, но я проверяю ещё на сочетание »^l
Важно для случаев типа
«И как ты решила?»
в конце абзаца.
Встречается крайне редко, но всё-таки... ;)
Отв: Мои алгоритмы работы с FR11
Вчера делала книгу, в которой скрипт нашёл более 40 (sic!) случае разрыва абзаца на строке с точкой.
В среднем "проблематичных" мест находится от 5 до 15.
Сегодняшний "улов":
Тривиальный разрыв абзаца страницей - 159 (спрятан в спойлер, не обрабатывается)
Разрыв абзаца страницей - 14 (отметила служебными знаками, чтобы соединить в ФБЕ)
Подозрительный фрагмент текста - 1 (оказался разрывом абзаца, когда следующая строка начиналась с цифры)
Возможный разрыв абзаца - 15 (в 2-х случаях оказался разрывом, остальные - перед ***, проверила один раз)
Внутриабзацный разрыв - 18 (выделено зелёным, обрабатывается на усмотрение OCR-щика; я разрывы исправила)
Затрата времени (с момента запуска скрипта) - 9 минут.
Кстати, специально для Вас, tvnic, попробовала ещё раз: оставила название файла на кириллице. Получила сообщение, открыла результативный файл вручную. Так что полминуты можно сбросить. ;)
Отв: Мои алгоритмы работы с FR11
Не предполагал, что текстовый файл может быть только и исключительно после FR11. Попробовал, совершенно не впечатлился, останусь на своих текущих инструментах, то бишь, на регэкспах EmEditor.
Отв: Мои алгоритмы работы с FR11
Спасибо, что сообщили нам об этом. В-)
update:
Вообще-то скрипт "заточен" под текстовый файл, полученный из ФР. Именно поэтому так важно сохранить его с теми опциями, которые я описывала выше.
Применять его на любых других текстовых файлах, мягко говоря, неразумно.
Отв: Мои алгоритмы работы с FR11
Уточнение.
Под "именем файла" подразумевается ПОЛНОЕ имя т.е. начиная с буквы диска:_путь_собственно имя. Так вот, в этом полном имени НЕ ДОЛЖНО быть кириллицы с пробелами.
На самом деле это не ошибка скрипта, а невозможность средствави vbs (привет Майкрософту!) запустить на исполнение (по функции run) файл, в ПОЛНОМ имене которого присутствует кириллица с пробелами (без пробелов - прокатит).
Отв: Мои алгоритмы работы с FR11
Вот-вот. Об этом сказано не было.
Отв: Мои алгоритмы работы с FR11
FineReader и DPI: размер имеет значение
Скормил я на днях FR'у присланные мне сканы и ... FR от тех сканов "сошел с ума": разворачивать и делить на страницы отказался почти в 70%, а области с текстом определил как картинки...
Подумав немного - решил замерить DPI "руками" - оказалось 110 (вместо заявленных 600)
Исправил DPI (использовал программу FastStone Photo Resizer) - OCR прошло почти без ошибок.
Отв: Мои алгоритмы работы с FR11
Сам ФР имеет встроенный редактор изображений: "Страница -- Редактировать изображение страницы -- Разрешение изображения (в правой колонке)". Можно воспользоваться им.
Часто при распознавании ФР сам предлагает увеличить разрешение. Нужно только щёлкнуть по линку в окне предупреждений.
Отв: Мои алгоритмы работы с FR11
Я пробовал в редакторе изображений определить DPI - FineReader определил верно, но с заданием применить его ко всем страницам справился на "плохо" на 1 балл т.е. :(
Отв: Мои алгоритмы работы с FR11
Тогда, конечно, имеет смысл обработать сканы в другой программе.
У меня обычно речь идёт о максимум 5-7 страницах - по отдельности. С этим ФР справляется на ура.
Отв: Мои алгоритмы работы с FR11
Как я понимаю - небольше погрешности в определени DPI распознавалка прощает, но если они значительны - будут проблемы... пробовал на тех же сканах поставить 300 - распознались сканы, но... часть строк была утрачена, в оставшихся изрядно ошибок...
Отв: Мои алгоритмы работы с FR11
Прошу прощения за смешной вопрос, но у меня возникла вдруг проблема, с которой я раньше не сталкивалась. Итак, есть сканы книги в виде пдф, сделанного из фотографий, фон картинок темно-серого цвета. Распозналось, кстати, очень неплохо, но в окне Текст - тот же темно-серый цвет фона, читать это невозможно - глаза болят. Поменять цвет фона можно - в настройках внизу окна, но это применимо почему-то только к одной конкретной странице, а их более 300. В Сервис-Опции-Вид - возможности изменить цвет фона я тоже не нашла. Хелп плизз!!
Отв: Мои алгоритмы работы с FR11
В меню "Страница" есть пункт "Редактировать изображение страницы". Это редактор изображения. Попробуйте в нём изменить страницу так, чтобы она читалась. Если получится, выберите в правом нижнем углу "Применить к -- Все страницы".
К сожалению, я не увидела там возможности изменить тон. Но может быть получится, если поиграться яркостью и контрастностью. :(
Отв: Мои алгоритмы работы с FR11
Спасибо, попробую)
Отв: Мои алгоритмы работы с FR11
Ну, вообще-то я описала пошагово. ;) Но лично для тебя ещё раз.
1. С выбранными опциями (предобработка, разрезать разворот и пр.) распознать книгу.
2. Зайти в редактор стилей. Там у тебя есть выбор, что делать. Можешь объединить все стили "сноска" в один. Но тогда можешь потерять курсив и/или болд. Поэтому рекомендую объединять только стили с одинаковыми параметрами (т.е. курсив с курсивом, болд с болдом). В результате получишь максимум 3 варианта. Если важна оптика, выбери всем один и тот же шрифт и один и тот же размер (насчёт размеров для удобства идентификации неверно распознанных стилей я писала подробно, почитай). Та же история с основным текстом. Если ты его объединишь в один - можешь потерять курсивность/полужирность.
3. Подпись к картинкам не передаётся, только если ты при сохранении выбрал "не сохранять картинки". При сохранении картинок передаются и подписи.
4. Я работаю в режиме "редактируемой копии" - так (для меня) нагляднее. Непринципиально, на распознавание не влияет - это только способ вывода текста в данный конкретный момент. При сохранении ты можешь выбрать то, что тебе удобнее: кнопка "Опции..." внизу слева в окне "Сохранить как..." Вот эти опции уже влияют на качество передаваемого текста.
5. Предполагаю, что отсутствие курсива/болда при передаче из pdf в fb2 связано именно с п. 4. В опциях должен стоять "Форматированный текст".
Отв: Мои алгоритмы работы с FR11
Спасибо!
Действительно, был выставлен плэйн текст при передаче в фб2 )
По пошаговость я спрашивал именно потому, что непонятно, когда что делать )
Т.е твой обычный порядок действий?
1) запускаешь ФР.
2) Проверяешь настройки распознавания.
3) Загружаешь сканы в ФР.
вот в таком виде хочется понять про то, в какой момент ты начинаешь править стили?
Особенно стили интересуют - их надо править на каждой странице?
____________________________________________________________________
На примере хорошего издательского pdf экспериментально выяснил, что 11 версия ФР уступает в аккуратности распознавания старой 8 версии ФР.
8 идеально распознала текст (есть режим извлекать тест из pdf), но не понимает сносок, распознает как обычный текст.
11 версия в режиме тщательного распознавания создала сноску, но потеряла курсив в этой сноске.
Т.е явный софтовый регресс при работе с хорошими исходниками в 11 версии ФР (
Отв: Мои алгоритмы работы с FR11
Я загружаю сканы сразу с распознаванием (настройки у меня выставлены раз и навсегда; изменять их приходится крайне редко, чтобы не сказать "никогда").
После этого (автоматического) распознавания правлю стили. А потом начинается основная работа - просмотр каждой страницы с целью выявления неуверенно распознанных символов и расстановки служебных пометок (и всё остальное - см. подробное описание).
Стили нужно править один-единственный раз: объединить, выставить желаемые шрифт и размер.
Всё остальное не комментирую. Я за рекламу ФР11 денег не получаю. ;) Если тебе больше нравится 8-ка, значит, так тому и быть.
Я пользуюсь ещё скриптами от Alex2L. Но они "заточены" под особенности ФР11.
Отв: Мои алгоритмы работы с FR11
Дык я потому тебя и пытаю, что хочу понять, надо ли переходить или нет )
Ощущения странные.
Вроде почти полная автоматизация от скана до фбе, сноски опять же...
Но вот странности с распознаванием и туча стилей, которые пока не могу понять как работают, меня сильно напрягают (
О чем спич? Есть линк?
ПС
А чего с границами текста в этом топике?
Вообще все к краям монитора прилипает )
Отв: Мои алгоритмы работы с FR11
Первая версия скрипта описана в этой же теме (мой постинг от 03.09). Но сейчас есть следующая версия, которую наш перфекционист-скриптописальщик ещё не считает достаточно зрелой, чтобы выдавать в общее пользование, а постоянно улучшает. ;)
Насчёт границ текста - не поняла. У меня всё ОК.
Понимаю. Привычных багов уже не видишь, их "лечение" стало рутиной. А тут надо перестраиваться. Сама поначалу сопротивлялась.
Но сейчас баги 11-й версии стали родными. Лечатся (на мой взгляд) просто, а преимущества (опять-таки на мой взгляд) перевешивают.
Поэтому, мне кажется, если пересилить себя и поработать какое-то время на "нелюбимой" 11-ке, то привыкнешь и будешь видеть только положительные моменты. Как я. В-)
Отв: Мои алгоритмы работы с FR11
Как-то для интереса сравнила количество склееных абзацев в книге, распознав ее в разных версиях. В FR 9 нашла 25 штук, в FR 11 — всего 4. Оно вроде бы и не трудно самой найти/исправить, но больше к девятому не возвращалась.
Отв: Мои алгоритмы работы с FR11
Удручает очень плохая работа ФР со сносками. Сейчас работаю с книгой, где практически на каждой странице есть сноска. Так вот, ФР - 1 в книге видит, по- разному. Но за единицу принимает очень редко. В основном, распознает, как '. 3, может быть и 5 и s. Из-за этого работа со сносками, превращается в мУку. Сноски с одной страницы, переносит на другую, или не переносит вообще. Я обычно радуюсь, когда все комментарии расположены в конце книги. Как ни странно, но работа со сносками происходит значительно быстрее в "ручном режиме", нежели в автоматическом, но в исполнении ФР, т.к. каждую сноску приходится проверять, правильно ли отражена. Может кто знает, как лечить ФР в таких случаях?
Отв: Мои алгоритмы работы с FR11
Я последнее время даже не пытаюсь ФР сноски доверять. По мне лучше потратить время и рассовать их в скобки, чем потом разгребать. Потом скриптом в ФБЕ. Все равно просматриваю, чё он там нараспознавал, пустые строки расставляю, стихи, в одну строку которые, разбиваю... ну и заодно.
Страницы