Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 18 часов
kopak RE:Таинственная личность админа Флибусты 2 дня kopak RE:О группе Дятлова. О той самой, того самого... 2 дня babajga RE:Ласси возвращается домой 3 дня sem14 RE:Подборка о Первой Мировой 4 дня Isais RE:удаление "двойников" 5 дней Isais RE:Кармен Мола - Пурпурная сеть [litres] 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели Isais RE:Катя Водянова - Дом и два жениха в придачу 3 недели Aleks_Sim RE:Прошу переформатировать, распознать, etc... 3 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 3 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 месяц Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 месяц Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 месяц babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц zlyaka RE:С Новым годом! 1 месяц Впечатления о книгах
Barbud про Семин: Конструктор (Попаданцы, Самиздат, сетевая литература)
20 02 Малоинтересное чтиво без художественных достоинств и исторической достоверности. Автор поднаторел на написании сказок с магией и прочими вытребеньками, где не нужно знать историю и следить за отсутствием анахронизмов, поэтому ……… Оценка: нечитаемо
nik_ol про Донцова: Дезертир из рая [litres] (Иронический детектив, Детективы: прочее)
19 02 Ребятки, а что так редко стали выкладывать Донцову, Луганцеву и Полякову? Ну, Полякова-то понятно, там её невестка как бы сейчас книги пишет, а Донцова? Скучаю уже, я её между Пелевеным читаю, например, для разгузки мозга))). Оценка: хорошо
decim про Ксенз: Золотая стена (Современная проза, Публицистика)
19 02 Автор не буйный , это хорошо. Больше ничего хорошего. Ну там Фаэтон, Гиперборея, Атлантида... а Чёрное море, должно быть, выкопали на сдачу. Потомков ассуров(так в книге) сдали на съедение Горбачёв с Волкогоновым. Который ……… Оценка: нечитаемо
mysevra про Зорич: Очень мужская работа [HL] (Боевая фантастика)
19 02 Здесь больше Зорича, чем Жарковского. «Тварь» показалась интереснее. Оценка: плохо
mysevra про Жарковский: Времена смерти [litres] (Космическая фантастика, Научная фантастика)
19 02 Это было необычно, мне бы хотелось продолжения. Оценка: хорошо
alexk про Скабер: Двойник Короля 5 (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
19 02 Неужели так сложно понять, что если аннотация не отображается, то в ней присутствуют символы, которые сайт либрусека игнорирует? И поправить залитый файл? Я уж не мечтаю о том, что вы будете заливать валидные файлы сразу...
decim про Бобров: Эпоха мертворожденных [= Украина в огне] (Альтернативная история)
19 02 Автор не взял тяжёлую тему. Надорвался при первом подходе. Можно усвоить, что война была неизбежна. В данном раскладе да. И что мы усвоим ещё - что автор любит боёвку, аж пищит, и не любит баб как пол. И всё! Что ………
Nicout про Владимирский: На киевском направлении (Военная документалистика)
18 02 Сколько погибло советских солдат при взятии Киева? По немецким данным, под Киевом к 24 сентября было взято в плен 665 тысяч человек. По данным, опубликованным в 1993 году Генштабом Вооружённых Сил РФ, советские потери ………
pulochka про Малиновская: Под колпаком у ректора [litres] (Фэнтези, Юмористическое фэнтези)
18 02 Книга сама неплоха, НО....я не мазохистка! Серия из одной книги??Это уже из рук вон какое гадство! Нельзя так измываться над читателем. Я прямо спрашиваю автора: Где окончание и почему на самом актуальном месте ......ничего ……… Оценка: неплохо
Belomor.canal про Ширвиндт: Мемуары двоечника (Биографии и Мемуары)
17 02 Текст, написанный сыном известного артиста, который с ранних лет был частью артистической среды. Вечеринки заканчивались в три часа ночи, а иногда и позже. Всё это происходило под руководством Маркуши Захарова из «Ленкома», ……… Оценка: хорошо
Aleks_Sim про Владимирский: На киевском направлении (Военная документалистика)
17 02 Книга сделана и перезалита на основе текста из militera.lib.ru
mysevra про Замяткин: Тай-чи языка, или Вас невозможно научить иностранному языку (Языкознание, Иностранные языки, Самиздат, сетевая литература)
17 02 По форме - много пустой болтовни в фиглярской манере, но по сути метод очень хорош, опробован на английском: в результате заполнились пробелы в аудировании и спонтанном говорении, которые до этого не могли исправить ни школа, ……… Оценка: отлично! |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Слова "оп, пи, опа" вообще-то существуют.Редко-редко, но они встречаются. Используя скрипт - рискуем их потерять.
Хотя... из той же области: па (на), Ас (А с), пет (нет)
Отв: Типичные ошибки распознавания - собираем статистику ...
Скрипт только ищет и выделяет подозрительное место курсором. Автозамена не планируется )
Отв: Типичные ошибки распознавания - собираем статистику ...
Пробелы перед знаками препинания, в начале и в конце абзаца. Отсутствие пробела вокруг тире. Несколько пробелов подряд.
Но это всё фигня, это поиском с regexp'ом лечится. А вот со слипшимися абзацами разобраться бы... Единственный более-менее хинт: если ни с того ни с сего после скана появляется разорванный в самом начале абзац, значит, одной-двумя строками выше точно два или более абзаца слиплись.
Отв: Типичные ошибки распознавания - собираем статистику ...
ив - и в (союз с предлогом)
ас - а с (то же)
оказал - сказал
опросил - спросил
Но эти случаи лучше проверять по бумажной книге.
Отв: Типичные ошибки распознавания - собираем статистику ...
...ьщик... => ...ыцик...
Отв: Типичные ошибки распознавания - собираем статистику ...
Тайме -- Таймс (и с маленькой буквы тоже)
Нуда -- ну да.
Кстати, концы строк без знаков препинания ищутся скриптом "Интерактивная ликвидация разрывов абзацев". Можно не дублировать.
Смесь букв с цифрами и неполный курсив/болд слова ищутся скриптом "Слипшиеся слова". Можно тоже не дублировать.
А что значит "неправильные дефисы-тире"?
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Ты когда им последний раз пользовался? И какой версией?
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Он давным-давно прерываем и очень удобно структурирован. Кроме того, можно показать спорное место перед принятием решения.
Обязательно поменяй на новую версию. Думаю, что он и под 2.4 будет работать.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вы, может быть, путаете "Интерактивную ликвидацию разрывов абзацев" со скриптом jurgennt'а "Разрыв предложения"? "Интерактивная ликвидация" - это которая в одно окно выводит цитаты сомнительных мест и для каждого сомнительного места - радио-кнопки с вариантами обработки (скриншот). И "Ликвидация" с самого начала была прерываемой.
(Ссылку на скачивание последней версии можно найти в этом топике (не в первом сообщении). А вот последняя версия на текущий момент.)
Отв: Типичные ошибки распознавания - собираем статистику ...
"Неправильные дефисы-тире" - это просто прилипшие дефисы.
типа -так
или- так
Генуборка их не убирает.
Скрипт "Интерактивная ликвидация разрывов абзацев" удобен просто для правки.
А быстрый поиск всех вхождений рваных абзацев очень быстро помогает искать и форматировать стихи, цитаты и проч. )
Так что одно другому не только не помеха, но и очень даже наоборот )
Скриптом "Слипшиеся слова" я пользуюсь, хотя что-то в нем мне не очень нравится... То ли его тормознутость и кажущаяся тяжеловесность, то ли еще что.
Стараюсь вычистить максимум без его участия, а потом уже контрольный в голову с его помощью )
Тайме -- Таймс - часто встречается, но я предпочел в ФР-словарь занести, когда столкнулся пару раз ) но включить можно, если не для книг про спорт )
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, действительно, в спортивной книге можно проколоться. Но если ты говоришь, что он будет интерактивный, то, наверное, нестрашно. ;)
Насчёт тормознутости и тяжеловесности: надеюсь, ты последней версией пользуешься? Прерываемой и запускаемой с места курсора.
Отв: Типичные ошибки распознавания - собираем статистику ...
Я говорю, что он будет?
Он уже есть ) Как минимум несколько версий уже тестировалось, зря не пользуешься )
Просто вешается на хоткей (у меня F2) и показывает по очереди все проблемные места.
Окон никаких нет, просто курсор выделяет найденную кривизну, а уж что с ней делать - дело хозяйское )
Скрипт "Слипшиеся слова" последней версии у меня, но еще с первых версий не люблю это вечно убегающее в верхний угол окошко, стараюсь все, что можно, поправить сначала без помощи этого скрипта, ибо так быстрее получается )
Отв: Типичные ошибки распознавания - собираем статистику ...
Эээээ?!
А я? А я? А как же я? (с)
Кинь в меня ссылкой, пжалста.
upd:
Ой-ой-ой... *посыпает пеплом голову* Я поняла, о чём ты. О скрипте по регэкспам. Да, я им не пользуюсь. Что-то не заладилось. :(
А ты свои идеи просто туда добавляешь?
Отв: Типичные ошибки распознавания - собираем статистику ...
Ну да, собираю всякие явные косяки и пишу в этот скрипт.
И быстро кнопочкой по всей книге тынц-тынц-тынц...
Оченно облегчает жизнь, однако )
Можно создать несколько шаблонов этого скрипта и юзать по необходимости нужный из них, или быстро закомментировать какую-то строку или добавить еще что-то и на ходу продолжать проверку )
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Я тоже не очень поняла, как занесение в словарь помогает выловить эту ошибку.
Такир, объяснишь подробнее?
Отв: Типичные ошибки распознавания - собираем статистику ...
Если в словаре ФР нет слова Таймс, то он даже при хорошем качестве скана будет распознавать слово как Тайме. Почему именно тайме - хз.
Если слово занести в словарь и перераспознать текст - это слово по всему документу будет распознано как Таймс.
Точно так же в свое время я матюкался на слово лабрадор - есть полуостров Лабрадор, и есть порода собак - лабрадор (с маленькой буквы).
ФР знал только название полуострова, и тупо везде распознавал Лабрадор вместо лабрадор, хотя в тексте было с маленькой буквы и скан отличный..
Занес в словарь, и все стало как надо )
Отв: Типичные ошибки распознавания - собираем статистику ...
Убедительно! И с "лабрадором" я тоже постоянно удивляюсь, чего это оно постоянно с большой буквы.
Так и сделаю. Спасибо. :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Я тебе в личку написал, но не уверен, что отправилось нормально...
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Джонс, Робертс - понятно почему...
Джон-Джона-Джоне-Джоном
Роберт-Роберте-Робертом
надо добавлять подобные имена в словарь ФР и указывать как склоняется )
Отв: Типичные ошибки распознавания - собираем статистику ...
Обидно только, что этап разборки с несловарными словами и неуверенно распознанными у меня наступает в самом конце - после отлова битых переносов, обработки слипшихся/порвавшихся абзацев и выискивания типовых кривораспознанностей. Придётся перепридумывать алгоритм обработки. :-(
Отв: Типичные ошибки распознавания - собираем статистику ...
ф - гр, ью - ыо
Отв: Типичные ошибки распознавания - собираем статистику ...
па - на
Отв: Типичные ошибки распознавания - собираем статистику ...
Их исправляет скрипт - СЛИПШИЕСЯ СЛОВА. Тем более его можно теперь остановить в любой момент. да и работает вроде шустро..
Отв: Типичные ошибки распознавания - собираем статистику ...
Ну, не то, чтобы исправляет, но хотя бы находит...
upd. и не находит, кстати...
скрипт "Слипшиеся слова" распрекрасно игнорирует подобные конструкции:
он- приобретет
легко переносит -утрату
Отв: Типичные ошибки распознавания - собираем статистику ...
На "он- приобретет", реагирует.
А на "переносит -утрату", нет.
Отв: Типичные ошибки распознавания - собираем статистику ...
Обязательно проглядываю вот эти штуки:
ыо - ью
иа - на
па - на
пе - не
ие - не
ке - не
оп - он
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо всем отозвавшимся!
Прилагаю свой дополненный скрипт, в который всегда можно добавить или убавить что-то еще.
Положить в папку Scripts ФБЕ, назначить на него любой удобный хоткей (сервис-настройки-клавиши-скрипты-«Поиск по набору регэкспов», присвоить нужную клавишу) и пользоваться.
http://narod.ru/disk/2874190001/Poisk_po_naboru_regexpov_TaKir.rar.html
Все добавленные мною регеспы помещены в теле скрипта между
// -------------начало блока TaKir - регэкспы:
// -------------конец блока TaKir - регэкспы:
// - строки закомментарены, т.е. не работают. Удобно для быстрого включения-выключения некоторых строк из скрипта. Правится в обычном блокноте.
Прошу желающих тестировать, отзываться и дополнять.
Еще раз спасибо Sclex, автору скрипта "Поиск по набору регэкспов" за очередную важную полезняшку! ))
Также спасибо Marina_Ch за помощь и тестирование скрипта и регэкспов
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Еще можно искать "ббльш", "чтб", и прочие слова, в которых из "о" с ударением получается "б".
Отв: Типичные ошибки распознавания - собираем статистику ...
довольно часто, - пробел буква н пробел , на самом деле всегда буква и
и ещё довольно часто і является ! , или находясь в середине слова никакой нагрузки не несет
Отв: Типичные ошибки распознавания - собираем статистику ...
Данная ошибка выискиваются скриптом "слипшиеся слова".
Отв: Типичные ошибки распознавания - собираем статистику ...
добавлю букву н и остальные буквы, которые практически никогда не встречаются в окружении пробелов (типа ф, м, п, т...)
латинская i среди русских букв скриптом ловится.
Отв: Типичные ошибки распознавания - собираем статистику ...
В Публичной библиотеке Ершова как-то видел словари замен со словами с ошибками для программы CLTXT.
Отв: Типичные ошибки распознавания - собираем статистику ...
"совеем" вместо "совсем".
Отв: Типичные ошибки распознавания - собираем статистику ...
лее -> же
Отв: Типичные ошибки распознавания - собираем статистику ...
Буква "Ж" очень зависит от шрифта. Если жирный курсив с ней при распозновании творится что-то жуткое. :) Что угодно, только не "Ж".
Отв: Типичные ошибки распознавания - собираем статистику ...
Ага. В одной книжке "ж" постоянно распознавалось как "яс". Особенно хорошо слово "хуже" получилось :) Но "лее" чаще попадается.
Отв: Типичные ошибки распознавания - собираем статистику ...
ср - ф, ею - его
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
В русском языке не так уж много слов с буквой "ф". Можно научить скрипт всем вариантам.
Отв: Типичные ошибки распознавания - собираем статистику ...
Поиск по морфологическому словарю нашел 30808 словоформ с буквой "ф". Для скрипта это слишком много.
Отв: Типичные ошибки распознавания - собираем статистику ...
Може быть есть возможность сделать выборку на сочетания, которые чаще брешут
-сф-фс-фё-ёф-рф-фр-фю-юф-фф-фы-ыф-фэ-
Как-то так примерно
И ещё, Скрипт показывает в фамилии с инициалами только инициалы. Это правильно? Г.К.Жуков
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет. Правильно Г. К. Жуков.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот и я о том. А скрипт вторую точку ( в Г.
К.Жуков игнорирует.Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
http://rghost.ru/3908064
Страницы