По рукам надавать за такое разпознавание текста | Либрусек

Вы здесь Главная » Блоги » Блог пользователя Psychedelic По рукам надавать за такое разпознавание текста Опубликовано сб, 14/03/2009 - 11:54 пользователем Psychedelic Вот есть книга http://lib.rus.ec/b/141245 Все предложения один к одному с переносами как в книге. т/е. Цитата: Первый переворот в истории космологии был связан с изобре- тением телескопа в XVII в. При его помощи Галилео Галилей, осно- вываясь на работах выдающихся астрономов Николая Коперника и Иоганна Кеплера, впервые приблизил к нам величие небес и сделал их предметом серьезных научных исследований. Кульминацией раз- вития космологии на раннем этапе стали работы Исаака Ньютона, который сформулировал фундаментальные законы, управляющие движением небесных тел. Эти законы больше не рассматривались как некое волшебство или мистика — стало ясно, что на все тела действу- ют силы, которые можно измерить и подсчитать. Как только начинашь перевод в fb2, начинаются сущие мучения, т.к. автомат не подхватывает 80% текста. Поэтмоу единственное решение ручками и delete убирать их. Хорошо я нашел, djvu - буду делать всю работу с нуля. К чему я это говорю? Когда распознаёте текст, уберите галку в Fine Reader - сохранять деление на строки эти вы облегчите труд друго человека в разы. Блог пользователя Psychedelic Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 12:14 пользователем ew А я и не занл, что там есть такая галка. Наверное, по умолчанию она выключена. Или это зависит от того, в каком формате сохранять распознанный текст. Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 15:36 пользователем Tanja45 В девятом FR можно выбирать вручную разные опции сохранения при сохранении в разных форматах. Там много разнополезного можно сделать, а так же можно создавать свои шаблоны. Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано сб, 14/03/2009 - 22:40 пользователем Bullfear Не торопитесь паниковать. Для FBE давно существует отличный скрипт, как раз для такого случая ;) http://home.doramail.com/Snout/Files/abruption_killing.rar Как разложить файлы скрипта по папкам. 1. js-файл следует разместить в папке CMD, выбранной в настройках FBE. 2. htm-файлы в папке CMD редактора, чей exe-файл будете запускать. 3. css-файлы в поддиректории CSS каталога редактора, чей exe-файл будете запускать. Вместо "удаление разрывов_main.css" можно подложить main.css от вашего FBE (если вы стили настраивали под себя). Запускать со следующими настройками: а) галки "ручной выбор" отовсюду убрать, ибо заколебаетесь, да и скрипт будет работать около часа. б) Маленькая буква \| маленькая буква - соединить через пробел в) тире или дефис, перед которым непробельный символ \| любой символ - соединить без пробела,сохранив тире\дефис г) запятая \| любой символ - соединить через пробел. д) остальное поставьте нетрогать. Благодарим товарища Sclex с форума www.fictionbook.org Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 00:59 пользователем SeNS Пара часов на эксперименты с FineReader-ом, обучение и пополнение пользовательского шаблона и можно достичь удивительных результатов в OCR, впоследствии экономящих гораздо большее время. Если же потратить еще некоторое время на знакомство с макросами MS Word, и изучение FBE со скриптами уважаемого Sclex-а - и изготовление книги превратится в элементарное дело :-) P.S. Самое сложное в OCR, imho - это тщательная вычитка. Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 02:55 пользователем ew SeNS написал: ...P.S. Самое сложное в OCR, imho - это тщательная вычитка. Не то, чтобы сложное, но трудоемкое и утомительное. Но можно сочетать приятное с полезным: одновременно читать и вычитывать. Т.е. удержаться от соблазна прочитать книгу перед оцифровкой. А если еще делать все это не вставая с дивана, да под хорошую музыку - то и вообще вполне себе не утомительно :) Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 05:31 пользователем computers Я всегда так и вычитывал. Только не на диване, а за столом (люблю нормальный монитор и клаву), и без музыки - не могу под нее даже просто читать, отвлекает. Или одно, или другое ;). Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 05:41 пользователем ew computers написал: ... и без музыки - не могу под нее даже просто читать, отвлекает. Или одно, или другое ;). Это смотря какая музыка. Если, скажем, на 1.FM включить Otto's Baroque Musick - отлично работается. Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 05:24 пользователем computers Вообще-то такая хрень (извините) легко убирается в Word'e - поиск/замена символов дефис+перевод строки на ничего. После чего остаются сущие пустяки для ручной правки. Открою еще страшную тайну: в Word'e легко делать макросы, которые пишутся на языке WBA, а с ними можно такое натворить... Например, я приводил в свое время, как учебное, такое задание: вставить 3 пробела в начале любой строки текста, в которой встречается частица "не" (это очень простой пример, для чайников, так что прошу не кидать камнями ;). Про язык WBA, кстати, говорится больше для понта, а в действительности отлично написать макрос можно, и совершенно не владея этим языком, и даже не зная о его существовании ;D. Во всяком случае, это в разы проще, чем делать валидные fb2, или даже просто хорошо отсканировать книгу. Так что, ИМХО, нет ни малейшего смысла заново распознавать текст, разве что из любви к искусству и FR ;))). Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 06:00 пользователем Stiver Вы не поверите, но язык этот называется VBA. Потому что сокращение от Visual Basic for Applications, а вовсе не World Boxing Association. P.S. Продвинутые какие у нас специалисты по вирусам и троянам пошли.. P.P.S. Кстати VBA в русской раскладке дает МИФ. Что отлично этому языку подходит :) Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 21:01 пользователем computers Не придирайтесь так к очепяткам ;), я преподавал этот язык лет 10 назад :(, нетрудно и правда забыть название ;D. МИФ - хорошо! Понравилось! Возьму на вооружение в следующей жизни, если снова буду заниматься тем же ;). Но должен заметить, что тот же VBA в Excel'e - уже не совсем миф, а больше похож на настоящий... Как-то пришлось на нем даже написать программку для регистрации постояльцев в гостинице, включая стстистику, выписку счетов и т.п. Было интересно! Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 06:51 пользователем Psychedelic Цитата: Вообще-то такая хрень (извините) легко убирается в Word'e - поиск/замена символов дефис+перевод строки на ничего. После чего остаются сущие пустяки для ручной правки. Не легко, т.к. остаются другие фразы, которые идут без дефиса - таких кстати большинство. Я распознал по новой, заняло это 15 мин с указанием картинок (вы бы не справились за 15 мин с убиранием этих переводов строк, это заняло бы как минимум 4 часа). Скан хороший, потому ошибок почти нет. Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано вс, 15/03/2009 - 14:50 пользователем TaKir ФБД с включенной галкой re-format completely приводит такие тексты в нормальный вид секунд за 20... Уже сколько их таких обработано - не сосчитать... OCR pad опять же есть сто лет в обед. Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 06:20 пользователем Psychedelic Цитата: ФБД с включенной галкой re-format completely приводит такие тексты в нормальный вид секунд за 20... Вы думаете я не делал этого? Делал, но посмотрев что получилось, я подумал что намного быстрее будет сделать распознавание по новой. По пробуйте сделать то что вы предложили, увидите результат. Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 08:26 пользователем TaKir Psychedelic написал: По пробуйте сделать то что вы предложили, увидите результат. Вы думаете, я не делал этого? )) Я не предлагаю, не проверив сначала. Нет такой привычки советовать не проверенное лично. К сожалению, исходника дежавю или pdf под рукой не было, потому и увидеть, что там не так с Вашей точки зрения, не могу. Отв: По рукам надавать за такое разпознавание текста Постоянная ссылка (Permalink) Опубликовано пн, 16/03/2009 - 07:30 пользователем Psychedelic Закончил книгу. Читаем : http://lib.rus.ec/b/142243 Там проблема со сносками. Дело в том что в doc что в djvu - текст уже был распознан (потом закручен в djvu) и некоторые сноски были повреждены. Там в конце идут сноски, и перед словом ставиться номер этой сноски. так вот половина номеров толком не распознались (именно в исходном документе - djvu или doc - там они уже "повреждены") - поэтому непонятно какая сноска - где..	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии Aleks_Sim RE:Ирина Александровна Велембовская - Немцы 8 часов monochka RE:Подайте бедному копеечку на книжку с литреса... 12 часов Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 дня Саша из Киева RE:Избранное 6 дней Alligatoreader RE:Багрепорт - 2 1 неделя fedor.de RE:Отображение страницы Librusek 1 неделя Isais RE:Чиполь Сергеевич Наглецов - Огненный дракон [СИ] 1 неделя kopak RE:Таинственная личность админа Флибусты 1 неделя blahblahblah2024 RE:Беженцы с Флибусты 1 неделя sem14 RE:Что читать о блокаде Ленинграда. Подборка книг 1 неделя sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 3 недели TaKir RE:Валерия Сергеевна Черепенчук   А. Н. Николаева - Мифы... 3 недели Oleg V.Cat RE:B343695 Александр. Книга 1 3 недели Isais RE:Калибрятина/Самиздатина 4 недели md2k15 RE:Относительно Вархаммер 40 000 1 месяц tvnic RE:"Коллектив авторов" 1 месяц SergL197 RE:Регистрация 1 месяц ejik.v RE:Viva Stiver! 1 месяц Впечатления о книгах nik_ol про Донцова: Амур с гранатой (Иронический детектив, Детективы: прочее) 27 11 Конечно, я рада, что книги Донцовой выходят и выходят, но неужели, если она сама их пишет, то не помнит, что «старичок» был не Коробков, а Гри, её первый муж, до Ивана в этой серии?! Или всё-таки литературные негры клепают?! Оценка: неплохо neletay про Котов: Ценитель [СИ] (Городское фэнтези, Самиздат, сетевая литература, Приключения) 27 11 Прочитала только несколько первых глав - и уже очень, очень нравится. Нравится все - сюжет, стиль, язык, ГГ, а также автор, который за всем этим видится. С удовольствием читаю дальше, надеюсь не разочароваться. Lan2292 про Ермаков: Май, весна и апокалипсис. Книга 1 (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература) 27 11 Так себе чтиво, но не скучно. Оценка: неплохо Chernovol про Коровин: После «Украины» (Политика, Публицистика) 25 11 Интересно, такие книги кто-то покупает или их бесплатно раздают. Оценка: нечитаемо sem14 про Лазарис: Белая ворона (Историческая проза) 25 11 Леонид Гомберг 24 июля 2007 Роман известного в Израиле прозаика, поэта и переводчика Владимира Лазариса «Белая ворона» (Тель-Авив: Ладо, 2003) в этом году был включен в «лонг-лист» популярной премии «Букер». И это ……… Оценка: отлично! decim про Осне Сейерстад 25 11 Попробовала бы Сурайя-реис не подать в суд! Муж бы убил. "Для контекста добавлю, что после публикации книги семья героя подала на Сейерстад в суд за клевету, но после апелляции писательница была признана невиновной, а через ……… tvv про Кич: Большой дом [СИ] (Ужасы, Мистика, Фанфик, Юмористическое фэнтези) 24 11 Совершенно замечательное "Оккультное Простоквашино". decim про Галинакс: Женщина-рыцарь. Самые необычные истории Средневековья (Исторические приключения, История) 24 11 А вот это уже лучше. Подлинник на сей раз не знаю, а компиляция - явно автор чем-то вдохновлялся, но не ссылается на - получилась годная, и хорошо подобраны иллюстрации. Неплохо. Оценка: неплохо udrees про Быкова: Школьники «ленивой мамы» (Педагогика, Детская психология) 24 11 Очередная книга про воспитание ребенка, теперь уже в школе. Советы в целом ценные, но явно объем книги их все не может вместить, поэтому думаю можно воспринимать текст как информацию к размышлению, а дальше самим продумывать ……… Оценка: хорошо udrees про Баковец: Обычная жизнь обычного японца (Фэнтези, Самиздат, сетевая литература) 24 11 Угарная книга про приключения попаданца, оказавшегося в теле японского задрота-клерка. Автор видимо в теме про японское общество, имеется множество описаний нюансов про офисную жизнь, иерархию, привычки японцев, домашний быт. ……… Оценка: хорошо udrees про Кузичева: Чехов. Жизнь «отдельного человека» (Биографии и Мемуары) 24 11 Довольно большая по объему биография известного писателя. Лично мне показалось, что ее писал театрал, поскольку большая часть книги посвящена театру, постановкам пьес Чехова в театре, реакции публики, трудностям постановки, ……… Оценка: хорошо udrees про Тесленок: Сладкая История (Фэнтези, Самиздат, сетевая литература) 24 11 Отстой, очередное продолжение гаремника, и что радует – совсем небольшое на 20 страниц с иллюстрациями. Ценности никакой, язык примитивный как валенок. Описание действий как у озабоченного подростка со спермотоксикозом, кругом ……… больше впечатлений