Вы здесьОбновление скрипта "Поиск по набору регэкспов" для FBE - тестируем!
Опубликовано пт, 06/09/2019 - 04:13 пользователем TaKir
Дошли руки существенно дополнить, обновить, почистить и структурировать по смыслу скрипт "Поиск по набору регэкспов" для Fiction Book Editor (FBE). Автор этого скрипта (как и многих других скриптов для FBE) - Sclex, за что ему отдельное гран мерси. Наполнение скрипта мое, Sclex-а + учтены все возможные пожелания книгоделов из двух старых здешних тем: Типичные ошибки распознавания... Пользоваться и тестировать могут все желающие, отзывы, примеры, предложения по улучшению категорически приветствуются. Просьба приводить конкретные примеры: - ошибок скрипта, ложных срабатываний Очень приветствуется помощь тех, кто хорошо знаком с регулярными выражениями для дальнейшего совершенствования скрипта. Ссылка на последнюю версию скрипта (30-09-2019): альтернативные ссылки: Заменить этим файлом имеющийся файл (или положить новый вариант скрипта рядом) в папке: Скрипту удобнее назначить горячую клавишу F2 (меню: Сервис-Настройки-Клавиши-Скрипты-Поиск по набору регэкспов). Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице" По мере накопления отзывов о работе скрипта, планирую периодически пополнять скрипт и выкладывать обновленную версию. P.S. На Флибусте открыта аналогичная тема, можно писать в любую.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aleks_Sim RE:Ирина Александровна Велембовская - Немцы 6 часов
monochka RE:Подайте бедному копеечку на книжку с литреса... 9 часов Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 дня Саша из Киева RE:Избранное 5 дней Alligatoreader RE:Багрепорт - 2 1 неделя fedor.de RE:Отображение страницы Librusek 1 неделя Isais RE:Чиполь Сергеевич Наглецов - Огненный дракон [СИ] 1 неделя kopak RE:Таинственная личность админа Флибусты 1 неделя blahblahblah2024 RE:Беженцы с Флибусты 1 неделя sem14 RE:Что читать о блокаде Ленинграда. Подборка книг 1 неделя sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 3 недели TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 3 недели Oleg V.Cat RE:B343695 Александр. Книга 1 3 недели Isais RE:Калибрятина/Самиздатина 4 недели md2k15 RE:Относительно Вархаммер 40 000 1 месяц tvnic RE:"Коллектив авторов" 1 месяц SergL197 RE:Регистрация 1 месяц ejik.v RE:Viva Stiver! 1 месяц Впечатления о книгах
nik_ol про Донцова: Амур с гранатой (Иронический детектив, Детективы: прочее)
27 11 Конечно, я рада, что книги Донцовой выходят и выходят, но неужели, если она сама их пишет, то не помнит, что «старичок» был не Коробков, а Гри, её первый муж, до Ивана в этой серии?! Или всё-таки литературные негры клепают?! Оценка: неплохо
neletay про Котов: Ценитель [СИ] (Городское фэнтези, Самиздат, сетевая литература, Приключения)
27 11 Прочитала только несколько первых глав - и уже очень, очень нравится. Нравится все - сюжет, стиль, язык, ГГ, а также автор, который за всем этим видится. С удовольствием читаю дальше, надеюсь не разочароваться.
Lan2292 про Ермаков: Май, весна и апокалипсис. Книга 1 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
27 11 Так себе чтиво, но не скучно. Оценка: неплохо
Chernovol про Коровин: После «Украины» (Политика, Публицистика)
25 11 Интересно, такие книги кто-то покупает или их бесплатно раздают. Оценка: нечитаемо
sem14 про Лазарис: Белая ворона (Историческая проза)
25 11 Леонид Гомберг 24 июля 2007 Роман известного в Израиле прозаика, поэта и переводчика Владимира Лазариса «Белая ворона» (Тель-Авив: Ладо, 2003) в этом году был включен в «лонг-лист» популярной премии «Букер». И это ……… Оценка: отлично!
decim про Осне Сейерстад
25 11 Попробовала бы Сурайя-реис не подать в суд! Муж бы убил. "Для контекста добавлю, что после публикации книги семья героя подала на Сейерстад в суд за клевету, но после апелляции писательница была признана невиновной, а через ………
tvv про Кич: Большой дом [СИ] (Ужасы, Мистика, Фанфик, Юмористическое фэнтези)
24 11 Совершенно замечательное "Оккультное Простоквашино".
decim про Галинакс: Женщина-рыцарь. Самые необычные истории Средневековья (Исторические приключения, История)
24 11 А вот это уже лучше. Подлинник на сей раз не знаю, а компиляция - явно автор чем-то вдохновлялся, но не ссылается на - получилась годная, и хорошо подобраны иллюстрации. Неплохо. Оценка: неплохо
udrees про Быкова: Школьники «ленивой мамы» (Педагогика, Детская психология)
24 11 Очередная книга про воспитание ребенка, теперь уже в школе. Советы в целом ценные, но явно объем книги их все не может вместить, поэтому думаю можно воспринимать текст как информацию к размышлению, а дальше самим продумывать ……… Оценка: хорошо
udrees про Баковец: Обычная жизнь обычного японца (Фэнтези, Самиздат, сетевая литература)
24 11 Угарная книга про приключения попаданца, оказавшегося в теле японского задрота-клерка. Автор видимо в теме про японское общество, имеется множество описаний нюансов про офисную жизнь, иерархию, привычки японцев, домашний быт. ……… Оценка: хорошо
udrees про Кузичева: Чехов. Жизнь «отдельного человека» (Биографии и Мемуары)
24 11 Довольно большая по объему биография известного писателя. Лично мне показалось, что ее писал театрал, поскольку большая часть книги посвящена театру, постановкам пьес Чехова в театре, реакции публики, трудностям постановки, ……… Оценка: хорошо
udrees про Тесленок: Сладкая История (Фэнтези, Самиздат, сетевая литература)
24 11 Отстой, очередное продолжение гаремника, и что радует – совсем небольшое на 20 страниц с иллюстрациями. Ценности никакой, язык примитивный как валенок. Описание действий как у озабоченного подростка со спермотоксикозом, кругом ……… |
Комментарии
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Отлично, давно было пора собрать до кучи все наработки.
Спасибо, TaKir!
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Спасибо. Давненько такие штучки не обновлялись.
Проверил на одном файле.
Редактор ругается на данную строку:
И часто появляется сообщение, что сценарий тормозит работу эксплорера.
В остальном всё норм.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
addRegExp("( кое[A-Za-zА-яЁё]{3})","i","Найдено: возможно, пропущенный дефис");
вот так должно быть, потерялась скобка перед "пробел+кое"
А про торможение эксплорера у меня ни разу не ругалось. Т.е. вообще с 2007 г никогда такого не было.
UPD. Ссылка на неругающийся файл обновлена в старт-посте.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Спасибо за обновление!
У меня в ФБЕ стоит версия 2.9, дополненная wotti, Roxana и другими. Материалы версии 2.9 вошли в предложенный релиз?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Выложи плиз свой файлик, я проверю. По идее придумывалось и собиралось все, что можно и тестировалось. Можно в личку, если так проще.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Прикреплять здесь некуда, так что ссылка на Дропбокс: https://www.dropbox.com/s/j74awi24vigsvw2/04_Regexps_Search.zip?dl=0
Если ссылка окажется недоступной, скажите -- что-то Дроп глючит давно и по-свински.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Спасибо, скачал, при беглом взгляде - по содержанию - это довольно старая версия этого же скрипта, новый существенно расширен.
Но после выходных поизучаю более внимательно, если что в моем не учтено, добавлю.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Как под горкой под горой( торговал мужик золой.
Как под горкой под горой « торговал мужик золой .
Есть и другие, дойду до них, тогда тоже выложу.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице"
Тогда будет гораздо меньше лишних срабатываний.
Добавил эту рекомендацию в стартпост.
Но оторванную скобку и кавычку добавить в скрипт нет проблем, конечно.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Прилипший дефис в конце строки в стихах не находит, а надо бы!
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Прилипший дефис проверим! )
Коллеги, просьба набросать примеров типичных наиболее часто встречающихся сокращений, где используется точка, типа:
млн. рублей
тыс. человек
добавлю в скрипт, чтобы пропускал такие вещи.
т.д. и т.п. уже учтены
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Уважаемый TaKir, примите во внимание, что сокращение млн по правилам записывается без точки (как и, например, сек -- секунда, т -- тонна) -- в отличие от тыс., где точка таки нужна.
http://new.gramota.ru/spravka/docs?layout=item&id=16_15
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
+100500!
Также не не нужна точка в сокращениях млрд, трлн, км, га -- то есть таких, которые сокращаются "фигурно" -- выбросили кусок слова в одном месте, потом в другом, осталось пара-тройка букв из разных мест -- вот такие слова не требуют точек в конце.
А вообще по сокращениям и как они пишутся есть довольно-таки толстый словарь с убористым текстом... Всё в скрипт не переписать. :(
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Если в книге уже написано "млн. руб." или "млрд. человек" - будем удалять точки? Или оставляем как "написано пером"? Какая политика партии?
Если мне не изменяет мой склероз, то при оцифровке всегда шли от презумпции "неприкосновенности" написанного, кроме, возможно, явных очепяток.
Скрипту планируется указать просто пропускать такие сокращения с точкой, буде они встретятся.
Просто частенько бывает слишком много стандартных сокращений в книге, и хотелось бы, чтобы скрипт их пропускал.
Никаких исправлений в тексте скрипт не делает, если кто еще не в курсе, он всего лишь останавливается на подозрительных местах.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Из найденного на скорую руку (речь о наиболее распространенных сокращениях, весь словарь нам не нужен, конечно).
в.
г.
вв.
гг.
млн.
млрд.
трлн.
тыс.
сокр.
и т.д.
т.к.
т.е.
т.п.
т.о.
т.ч.
н. э.
чел.
экз.
руб.
коп.
долл.
др.
пр.
проч.
см.
ср.
англ.
фр.
нем.
исп.
лат.
прим.
перев.
авт.
ред.
рук.
мин.
сек.
стр.
мм.
кг.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
"Мм" и "кг" относятся как раз к той разновидности сокращений, алгоритм для которой я написал выше: буквы выброшены выборочно, поэтому точки не нужны!
Если где-то есть -- это или ошибка, или соринка прилипла к бумаге.
И -- Вы куда-то выходили, когда я говорил, что ни в "ТРЛН", ни в "МЛН", ни в "МЛРД" точка не должна стоять?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Можно ли научить скрипт такое находить?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Да, конечно, без проблем.
addRegExp("[\\.]-","","Найдено: неправильные дефисы-тире");
В новой версии будет включено в поиск.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Думаю, в заголовках и подзаголовках это лишнее. Постоянно о римские цифры спотыкается.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Можно вот так скорректировать, чтобы скрипт искал после конца фразы и на заголовках и подзаголовках не тормозил.
addRegExp("([\\.!\\?][\\x20\\xA0\\t\\n\\r\\f])II(?![а-яё])","i", "Найдено: слово \"II\" (\"И\" с опечаткой)","-title -subtitle");
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Обновленная версия скрипта в шапке.
Дублирую тут тоже.
- Многое добавлено, переработано и исправлено.
- Все упоминавшиеся в теме тут и на Флибусте ошибки учтены.
- Сравнение с другими версиями скрипта произведено, там ничего не было, чего уже не было бы в полной версии.
- Добавлен пропуск сокращений, чтобы не было лишних срабатываний. (Очередной раз огромное спасибо Sclex!)
- Улучшен поиск кириллицы в латинице, в том числе в инициалах, англоязычных списках литературы.
На 26-09-2019 собрано 395 поисковых строк, из них рабочих - 385, макросов - 7 штук.
// заремленных поисковых строк - 10 штук (из-за частых лишних срабатываний.)
Ссылка на последнюю версию скрипта (26-09-2019):
https://my-files.ru/mkvr2n
Просьба тестировать.
Еще раз напоминаю, что скрипт НЕ ПРОИЗВОДИТ НИКАКИХ ИЗМЕНЕНИЙ В ФАЙЛЕ книги, а только останавливается на "подозрительных" местах в тексте. Все исправления делаются по необходимости руками, если действительно найдена ошибка.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Можно добавить... на плохих сканах бывает полезно. В основном замедляет проверку конечно...
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Пока не тестил, но в любом случае спасибо за проделанную работу.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Спасибо за проделанную работу!
Протестировал скрипт на уже вычитанной книге. Многократное нажатие горячей клавиши (поставил F4, так как рекомендуемая F2 уже зарезервирована) привело к опуханию пальца в конце работы из-за многочисленных ложных срабатываний. Но к разработчикам претензий нет, так как в таком сложном скрипте без этого не обойтись. Что было отмечено: как подозрительное выделяется слово ею (творительный падеж местоимения она); яиц (родительный падеж слова яйца), начало имени или инициалы после тире. Не совсем ясно, как все-таки будет с сокращениями. В книге на которой тестировался скрипт сокращения т (тонна) ц (центнер), написанные в соответствии с правилами, т.е. без точки, выделялись как ошибочные.
В качестве предложения хочу сказать следующее: расширить список воспринимаемых сокращений в том числе исторических. Например, слово Президент (с заглавной буквы в середине предложения) скрипт пропускал, а вот словосочетание ЦК (центральный комитет) выделял. Также известная аббревиатура ВКП(б) выделялась скриптом, хотя это сочетание известно всем, родившимся до 1985 года. Может и КПСС тоже выделит как ошибку? Да, и еще - неплохо бы решить проблему с религиозной терминологией. Сплошь и рядом слова бог, библия, господь, и т.д. пишут с заглавной буквы, хотя в печатных оригиналах эти слова писались и должны писаться строчными. Как будет скрипт реагировать на эти вещи?
В целом, несмотря на известное предубеждение в отношении скриптов и вообще автоматизации работы, считаю данный скрипт полезным, так как помимо бесчисленного количества ложных срабатываний он сумел найти и реальные ошибки, пропущенные в ходе двукратной вычитки. Хотя палец от многократных нажатий и болит.
Еще раз спасибо!
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Спасибо за отзыв!
Объясню немного логику работы этого скрипта:
Скрипт в основном заточен на работу с худлитом. Для научпопа его использовать можно, но может быть именно как у вас, палец устанет.
Скрипт не только выделяет сомнительные места в тексте, но и пишет в строке состояния, внизу экрана редактора, что именно найдено и почему.
"ею" - часто после скана это "его"
"яиц" - "лиц" и т.д.
Отдельно встречающиеся в тексте согласные скрипт воспринимает такие же как ошибки - "ц" - возможно "и", да и вообще, отдельно стоящие согласные довольно редко встречаются в реальных текстах.
Т.е. это именно частые ошибки распознавания, встречающиеся после файнридера.
Учтите, скрипт не человек, он не умеет анализировать смысл текста, ему все равно - "Президент" или "Бог" или "Библия".
Скрипт ищет "ошибки" по формальным признакам, например, после слова и точки в 99% случаев начинается новый абзац или новая фраза, а она чаще всего - с большой буквы. Вот если тут буква маленькая, то скрипт отмечает такое место.
Всякие ЦК скрипт находит как 2 согласных подряд, что тоже в текстах бывает крайне редко, часто в таких местах должно быть что-то другое. Скрипт не понимает, что это именно ЦК, там могло быть и ХЗ и РВ - скрипт не умеет понимать написанное.
Аналогично с отдельностоящими 2-3 гласными - обычно это редко встречается и может означать ошибку.
ВКП(б) - буквы с прилипшими скобками - в обычных текстах такого не должно быть.
Можно, конечно, впихнуть в него все возможные сокращения, но не думаю, что это будет к лучшему.
Опять же, от конкретной книги зависит.
На каком-нибудь учебнике может быть столько ложных срабатываний, что проще не пользоваться этим скриптом вообще.
Либо сделать 2-3... версии скрипта, заточенных под разные типы текстов, как уже тут предлагалось.
Т.е. мы пытаемся предусмотреть и вписать в скрипт именно типичные наиболее распространенные подозрительные места в тексте.
Понятно, что ложные срабатывания бывают, куда же без них.
Но то, что можно четко формализовать и добавить в скрипт - буду стараться добавлять.
Если дадите ссылку на вашу книгу - погоняю по ней, посмотрю, на чем спотыкается, может получится уменьшить количество ложных остановок.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Универсального скрипта в любом случае создать не удастся. Имеется в виду, чтобы и ошибки находил, и ложных срабатываний не было. Многое зависит от тематики и характера текста.
Вообще-то каждому можно отредактировать скрипт под себя или разбить его на несколько скриптов и гонять частями, если палец устает. Редактировать сложнее - надо понимать функцию каждой строки.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Количество ложных срабатываний можно уменьшить, если подключатся светлые головы и помогут с примерами и формализацией поисковых запросов.
В одно рыло перебрать столько вариантов у меня банально фантазии и времени не хватает.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Особо не заморачивайтесь. Я прекрасно понимаю возможности скриптов и связанные с ними ограничения. Поэтому еще раз повторюсь - к разработчикам претензий нет. Стремление уменьшить число ложных срабатываний может привести к другому результату - будет увеличиваться число пропущенных ошибок. Для меня было важно то, что даже в вычитанном тексте удалось найти незамеченные ошибки. Тут надо просто подумать, на каком этапе ваш скрипт запускать - в начале вычитки или после первого прохода. Вполне согласен, что нужно учитывать тип издания. В специальных работах, после выявления типичных ошибок, может быть целесообразно вместо скрипта запустить несколько поисков с заменой или поиск и замену с регулярными выражениями. В общем, варианты есть, но этому скрипту место наверняка найдется.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
А зачем F4? Я на панели в FBE добавила ссылку (иконку) - и мышкой. Всё удобней, чем пальцем. Если текст большой, то можно мозоль заработать :)
ЗЫ: Проверила работу скрипта, правда текст был небольшой. Замечаний нет. Может что в дальнейшем найдется.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Ваш юмор не оценила. :(
Мышкой работать гораздо удобнее.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Для данной операции - сомнительно. Особенно сомнительна необходимость вывихивания шеи при тыкании мышкой в верхний угол и рассматривании сомнительного места в тексте, находящегося иногда внизу экрана, при работе на большом (от 22" и больше) экране.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Привычка свыше нам дана, Замена счастию она. А.С.П.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Ну отчего же сомнительно? Кнопку F1 (или F4, или любую) - можно повесить на клавишу мыши (если есть нормальная мышка) и тогда комфорта выше крыши - тыкание мышкой и рассматривание сомнительного места в тексте происходит практически в одно и том же месте.
Из замеченного: скрипт "конец строк без точек" в чем-то дублирует работу отдельного скрипта "Интерактивная ликвидация разрывов абзацев". Возможно, для облегчения работы "Поиска по набору регэкспов" в будущем убрать подобный дубляж?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Сомнительное удобство - в описанной Антониной ситуации - десятки и сотни раз тыкать мышкой в иконку на панели.
А назначенной кнопкой мыши - ну может и удобнее, хотя меня допкнопки на мыши всегда бесили, мелкие, руку приходится крючить больше, чем хотелось бы, тем более для частого одноообразного многократного нажатия. Потому хоткеи для типичной рутины - лично мое все )
По мне "Интерактивная ликвидация разрывов абзацев" - слишком монструозная штука, требующая лишних телодвижений и задающая много вопросов ))
Потому мне гораздо проще найти подозрительные разрывы строк кнопкой F2 и по факту руками поправить, если надо.
Облегчить работу скрипта убирание 1 строки не поможет, а дополнительный контроль такой типичнейшей фигни, как разрыв абзаца, не помешает.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Любой, если считает строку лишней, может ее убрать из скрипта. Только найти надо.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Найти и убрать (а лучше заремить в начале строки //) не проблема, поскольку скрипт, когда находит что-то, пишет в строке состояния, что именно он нашел.
Вот это описание, надо, открыв файл скрипта блокнотом, набрать в поиске и поисковая строчка найдется. (строк ищущих одно и то же, в скрипте может быть больше одной).
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
"в описанной Антониной ситуации" - таки да, согласен.
"руку приходится крючить больше, чем хотелось бы" - крючить совершенно не приходится - программируемая доп кнопка под указательным пальцем, практически там же, где и ЛК мыши. Ну, или на выбор - кнопка сразу под большим пальцем. Это если нормальная мышка.
"По мне "Интерактивная ликвидация разрывов абзацев" - слишком монструозная штука, требующая лишних телодвижений и задающая много вопросов" - для одной ошибки да, но и для правки нескольких сот ошибок одним кликом - штука весьма удобная. Никто на знает заранее, сколько и каких ошибок чудных готовит редактируемый текст. И как удобнее (каким скриптом) их исправлять.
Впрочем, я не спорю - я обмениваюсь мнениями.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
У меня на мышке Logitech M705 нет кнопки под указательным пальцем.
А возле большого есть, но мне она ну очень неудобна.
Если сразу много надо исправить одним кликом - то да. Но у меня много разрывов абзацев никогда не бывает, я эти вещи на этапе ФР, потом скриптом на этапе ворда исправляю.
Потом в Fiction Book Designer остатки добиваю.
Ну а если 1-2 штуки в FBE просочится, то там уже "Поиском по регэкспам". Но это если сам сканишь, распознаешь и верщешь.
А если чужую готовую книгу в FBE надо править, то там да, всякое может быть.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Этот Fiction Book Designer уродует все символы, не находящиеся в кодовой странице 1251.(всякие там плюс-минус, мат.символы, умляуты, диакритику и т.д.)
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
"Дядя, ты дурак"? (с)
Никаких проблем с этим в Fiction Book Designer нет и не было.
Вот тебе пример текста с юникодом в FBE сразу после передачи из FBD.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Насчёт прямых рук: некоторые и после Калибри ухитряются пройти в FBE и получить вменяемый файл. А большинство тупо сразу заливает файл после Калибри даже и не догадываясь, как Калибря уродует файл.
Нормальный человек вообще не станет использовать Калибрю, а сделает хороший файл без её использования.
Подозреваю, что и без FBD и FBW можно обойтись. Можно же сразу копипастить в FBE и получить хороший результат, а можно взять и ррраз! бац! сохранить в FR в fb2 и получить дерьмо на выходе. И ведь мало кто будет это дерьмо обрабатывать в FBE, сразу понесут заливать в библиотеку.
Я вообще-то в разделе /soft читал, что FBD и FBW портят файлы, поэтому к ним надо относиться с осторожностью, а лучше и вообще не использовать.
Про юникодные символы моя придумка, но неоднократно читал и на Либрусеке и на Флибусте и на рутрекере книги, в которых именно те "фефекты фикции", которые я описал: если в тексте идет какой-нибудь символ, не укладывающийся в 1251, то этот символ корёжится самым причудливым образом так, что и не догадаешься, что за символ там стоял изначально(если не знаешь язык, на котором написана фраза, то даже по переводу не всегда догадаешься, какой диакритический символ там должен был стоять.)
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
И после FBD и после FBW и после "сохранить в FR в fb2" нужно допиливать ручками FB2 до ума. Ибо и после FBD и после FBW и после "сохранить в FR в fb2" и даже после "копипастить в FBE" (и даже FB2 с СИ) получится файл хоть и разной, но паршивости. Обычно люди, которые после работы FR сохраняют в FB2, его и допиливают дальше, а не бегут заливать в библиотеку.
Не понимаю, как Fiction Book Designer уродует все символы, не находящиеся в кодовой странице 1251, если обработка/редактирование и в FBD, и в FBE проходит в utf-8 (он же юникод) и в нем же нужно fb2-файл сохранять?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Что значит не получается? Если сохраняешь в FBD в юникоде, то в файле будет юникод.
Сохранишь в 1251 - юникода не будет.
Потом открывай файл чем хочешь, акелпадом, FBE - будет ровно то, что сохранишь, никакого шаманства не требуется.
Ты же понимаешь, что если ты возьмешь богато форматированный, со стилями, картинками, колонками, таблицами и прочими радостями doc файл и сохранишь его как TXT, у тебя все это богатое форматирование пропадет.
Так вот, глупость из-за этого орать на весь интернет, что ворд - редактор - говно и портит файлы.
Кто-то чушь написал, не вникая в суть вопроса, а ты бездумно ее тиражируешь.
Сохранять файлы надо в правильной кодировке, (настраивается 1 раз) и всего делов. FBD от рождения был юникодным, с 2005 г.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Необязательно такие сложности преодолевать. Юникод проще переформатировать в что то более удобное а потом все вернуть.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Необязательно такие сложности преодолевать. Юникод проще переформатировать в что то более удобное а потом все вернуть.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Тут, что называется, на любителя. При редактировании книг особой потребности в мышке не ощущаю. Все легко и удобно делается с клавиатуры. Тем более, что бывает и так, что мышку просто некуда пристроить, например, когда правишь книгу лежа на "четвероногом друге" (сиречь диване). Кто как привык.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Книгоделу полезно пополнять в свою версию скрипта по такому шаблону:
tagRegExp("(?<![а-яё])теша(?![а-яё])","i","Найдено: слово "теша" ("теща" с опечаткой).","",1);
Страницы