Вы здесьРаспределённые корректоры
Опубликовано ср, 26/11/2008 - 03:54 пользователем Jolly Roger
Нахально пользуясь популярностью Либрусека, позволю себе вбросить в массы одну интересную идею - subj. Итак: Имеет существовать уже довольно давно система "Распределенные корректоры" (подробно читать здесь: http://kapija.narod.ru/Translations/dp_russ.htm ) Суть желаемого российского варианта: любой желающий заводит аккаунт редактора, открывает некий проект и заливает на сервер сканы страниц. После чего кликает клич по друзьям и знакомым (или, к примеру, посетителям некоей библиотеки... :) ), кои заходят на страничку проекта и исполняют роль корректоров - каждому из них выдается маленький кусок скана и окно с распознанным текстом, каковой вычитывается с исправлением ошибок и сохраняется. Выглядит это где-то так: Скрипты настроены так, что каждый кусок выдается минимум двум корректорам - это дает некую гарантию качества вычитки. После окончания вычитки готовый распознанный и откорректированный текст предоставляется в распоряжение редактора и не выкладывается в публичный доступ - это позволяет с наглой мордой заявлять о нераспространении, типа "делал для себя - отлезьте, копирасты!" А где потом текст всплывёт - так это я не знаю... ;) Надобно отметить, что подобная система в рунете один раз уже была запущена - на сайте "Православная беседа", году где-то в 2003м ( http://kirrr.livejournal.com/12630.html ) , но сейчас проект закрыт ( http://pravbeseda.ru/ocrlab/ ), хотя книги, в нём распознанные и вычитаные, доступны (напр.: http://www.pravbeseda.ru/library/index.php?page=book&id=720 ). Проблема, как я помню, состояла в том, что "душой" того проекта был Братец ДыкЪ ( http://pravbeseda.ru/arc/old_agora/pravbeseda_common/1046713286.html ), занимавшийся им "по остаточному принципу", что было тяжело, и в критически малом числе добровольных корректоров в связи с нераскрученностью и православной спецификой проекта... З.Ы. Чего это я вдруг?... Это я в качестве конструктивного отклика вот на это...
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
babajga RE:Отчаянная осень 14 часов
babajga RE:Сказки Сени Малины 15 часов babajga RE:Сказки 15 часов babajga RE:Мои четвероногие друзья 16 часов DGOBLEK RE:Подайте бедному копеечку на книжку с литреса... 20 часов Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 день Isais RE:Древний Рим. Подборка книг 3 дня Isais RE:Семейственность в литературе 5 дней kopak RE:Таинственная личность админа Флибусты 1 неделя kopak RE:О группе Дятлова. О той самой, того самого... 1 неделя babajga RE:Ласси возвращается домой 1 неделя sem14 RE:Подборка о Первой Мировой 1 неделя Isais RE:удаление "двойников" 1 неделя Isais RE:Кармен Мола - Пурпурная сеть [litres] 3 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 3 недели Isais RE:Катя Водянова - Дом и два жениха в придачу 4 недели Aleks_Sim RE:Прошу переформатировать, распознать, etc... 4 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 месяц Впечатления о книгах
Stager про Валин: Штурмуя Лапуту (Боевая фантастика, Героическая фантастика, Самиздат, сетевая литература)
26 02 Повествование окончательно стало бессвязным и немотивированным. Даже рояли кончились. Но забавно, местами увлекательно. Оценка: неплохо
Lan2292 про Nooby: Торговец (Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
26 02 чЕЛОВЕК ПИСАЛ, ТРАТИЛ ВРЕМЯ, НО К СОЖАЛЕНИЮ НА ВЫХОДЕ ПОЛУЧИЛАСЬ ХРЕНЬ, А Я ЧЕСТНО ПЫТАЛАСЬ ПРОРВАТЬСЯ ЧЕРЕЗ СТРОЧКИ, НО УВЫ И АХ. Оценка: плохо
iggy71 про Маканин: Валечка Чекина (Современная проза)
25 02 Писатель намеревался, видимо, создать загадочный образ провинциалки, "в которой что-то есть", и типа все хотят с ней познакомиться поближе, и она такая себе любвеобильная, духовная и проч. Автор ей симпатизирует, но вот образ ……… Оценка: плохо
konst1 про Рубина: Окна [Авторский сборник] (Современная проза)
25 02 Вдруг Борис заметил: – Между прочим, знаешь ли ты, что еще совсем недавно, в XVIII веке, жители Корнуолла промышляли таким вот способом: в особо сильный шторм выносили на берег большие фонари и расставляли рядами там, ……… Оценка: отлично!
Дей про Господин следователь
25 02 Очень интересно. Детективная и, скажем так, бытовая линии отличные, любовная же не понравилась. Влюбился с первого взгляда, лучше её нет (это ещё даже не разговаривал с ней ни разу), вот эти китайские церемонии с ухаживаниями ………
Олег Макаров. про Капба: Как приручить дракона - 4 [СИ] (Альтернативная история, Киберпанк, Фэнтези, Попаданцы, Самиздат, сетевая литература)
24 02 Капба прекрасен как всегда. Четвёртый том не хуже (лучше!) предыдущих, хотя казалось бы куда ещё. Очень отличная книга. Оценка: отлично!
obivatel про Калинин: Вторая Отечественная [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
24 02 Автор датэл: "если именно благодаря революционерам Россия потеряла шанс выйти из нее в качестве главного победителя". . Если пишешь что-то о периоде, не поленись узнать как оно было. Царя опрокинули крупнейшие промышленники ……… Оценка: плохо
mysevra про Себастьянович: Новая книга о сыроедении, или Почему коровы хищники (Здоровье)
24 02 Подход для таких ленивых как я - нет обязательных самостоятельных чисток. «Мягким тканям потребуется не менее 2 лет, а скелету - около 7.» Непонятно, есть ли это время. Оценка: отлично!
mysevra про Артюшкина: Голем [litres] (Детективная фантастика, Социальная фантастика, Научная фантастика)
24 02 Такой замечательный мир, отличный язык, но невыносимо неспешное развитие событий – кажется вот-вот случится что-то значимое, а нет, очередной проходной момент. Оценка: неплохо
Isais про Абдуллаев: Заговор в начале эры (Исторический детектив, Политический детектив)
24 02 Скучно, нудно, нехудожественно. Вместо живых картин -- картонные декорации, никто из персонажей не вызывает эмоций -- ни любви, ни ненависти, каждый абзац сопровождается таким же по размеру морализаторским поучением, высказанным ……… Оценка: плохо
Nevskaya про Сушков: «Ленинградское дело»: генеральная чистка колыбели революции (Документальная литература)
22 02 Бралась за книгу с трепетом, родная тема, Блокада, Ленинград и все такое... Прочла со стыдом, дочитывала только потому, что не умею бросать начатое. Вранье сплошное, откровенное, бесстыжее, запредельное. Уже много где на форумах ……… Оценка: нечитаемо
Belomor.canal про Акунин: На санях (Современная проза)
22 02 Лучшая, самая лучшая книга Семейной Саги Оценка: отлично! |
Комментарии
Отв: Распределённые корректоры
Ох-ох...
Позволю себе привести забавную дискуссию, разгоревшуюся не так давно в Гостевой Фензина. Извините, если здесь уже всплывало :)
Головой думайте Пятница, 31. Октября 2008 18:37
Ну и ну, народ. Ну и ну.
Скажите, а вы вообще способны АДЕКВАТНО оценивать окружающую действительность?
Способны?
Ну тогда скажите мне: Кто во всем рунете сканирует фантастику?
Подумайте. Не торопитесь.
Ну а если напрягаться неохота, вот вам готовый ответ:
Англоязычную фантастику сканирует БСЧ, рускоязычную - сканирует Фензин. Плюс то, что продается на Литресе.
И все. ВСЕ.
На всех остальных приходится менее 1%.
К примеру, как вы полагаете, сколько фантастики было отсканировано на любимом нашем Либрусеке?
Если хотите, я вам подскажу: 1(одна) книга. Все остальное там перекачано с других ресурсов. Там вычитывают книги, правят файлы, но не сканируют. И нигде больше не сканируют.
Головой думайте:
И чего, в этом свете, стоят ваши вопли: "Ухожу на другой ресурс!!!", "ноги моей здесь больше не будет!!!!!", а?
Представьте, что фензин закрылся. Где, собственно, вы собираетесь брать новые книги? Сами сканировать будете? Ну так начинайте, чего ж не сканируете? Только стонать способны...
-----
Между прочим, я тоже предпочитаю получать книги бесплатно. Но, в отличие от некоторых, могу оценить - кто чего стоит.
aaa:
Головой думайте, сакраментальный вопрос - откуда дровишки?
rr3:
Ну и ну. Судя по нездоровому пафосу и зацикленности на уникальности - думать Вы, к сожалению, не способны. Увидев торжественное объявление о ПЕРВОЙ отсканированной книге - сделали вывод, что книга была единственной.
"И нигде больше не сканируют" - скажите, имена sem14, amyat, aprod и многих других Вам о чем-нибудь говорят?
Головой думайте:
У меня-то с головой все в порядке, это у вас язык ее опережает. Вы, чем болтать, просто возьмите и перечислите: какая фантастика была отсканирована на либрусеке. Не распознана с чужого скана или djvu, а именно отсканирована.
Если сможете.
И продолжение:
Головой думайте (Пятница, 31. Октября 2008 18:37) :
....Англоязычную фантастику сканирует БСЧ, рускоязычную - сканирует Фензин. Плюс то, что продается на Литресе.
И все. ВСЕ.
На всех остальных приходится менее 1%.
К примеру, как вы полагаете, сколько фантастики было отсканировано на любимом нашем Либрусеке?
Если хотите, я вам подскажу: 1(одна) книга. Все остальное там перекачано с других ресурсов. Там вычитывают книги, правят файлы, но не сканируют. И нигде больше не сканируют...
-------
Сегодня подсчитал, А.Антонов на ЛИБРУСЕКе представлен 23-мя произведениями, а на ФЕНЗИНе таковых только 10.
Так что - головой думайте
Да я-то думаю:
Чего и вам желаю. Слово "сканирует" - подразумевает вреня настоящее (или вы посчитали, что я имел ввиду - от сотворения времен?). Раз уж вы не поленились занятся подсчетами, не поленитесь поинтересоваться, когда и где книги были отсканированы, а когда файлы были перекачаны на либрусек и переформатированы. А потом прикиньте, во сколько процентов попадут остальные - относящиеся к нынешнему времени.
aaa:
А почему вы решили, что я ДОЛЖЕН ЭТИМ ИНТЕРЕСОВАТЬСЯ?
Я вижу счет - 23:10, и все остальное меня волнует мало.
Кстати, а где доказательства что только ФЕНЗИН занимается сканированием.
Пока я видел только голословные заявления, и не менее голословные обвинения
О как!:
Получается, интересоваться вы этим НЕ ДОЛЖНЫ, зато, что-то ДОЛЖЕН вам я?
Вы посчитали 23 к 10 и что? Все?
Я вот посмотрел автора, откинул эротику и боевики (которые вы почему-то посчитали?), посмотрел остальные книги - и не нашел среди них отсканенных в последнее время.
НО, может быть нашли вы? Не-а, вы оказывается и не искали. Вам это не интересно. Но, голословен, конечно я.
А вы тогда кто? Своей головой думать совсем не хочется?
aaa:
А почему вы решили, что я вас к чему-то обязываю.
Я просто констатировал факт.
Без комментариев.
У вас - одни лозунги. Фактов нет.
Тоже без комментариев.
У меня нет никакой возможности проверить, кто, где и что сканирует.
Как нет и такого желания.
Я читатель, а не следователь.
И меня это интересует не больше, чем страна и компания в которой сделали сахар, для моего утреннего кофе
Кстати, чем вам боевики не угодили?
Вместе с эротикой.
Про боевики и эротику:
Эротика - это наше все. Только вот разговор был о сканировании фантастики - вы это как-то упустили. Фензин - это вообще сайт, посвященный фантастике.
По поводу лозунгов:
Хм.. Я вам высказал мнение завсегдатая различных книжных сайтов и форумов, результат, если хотите, многолетнего мониторинга сети. Я бы не назвал это лозунгами. Другое дело - вы можете с моим мнением не согласиться. В таком случае, человек, как правило, пытается разобраться в ситуации самостоятельно - но этого вы тоже не хотите. Вы хотите от меня фактов и доказательств.
По поводу фактов:
Ну факты - они просты: вы видете прямо перед собой ресурс, регулярно выкладывающий отсканированную им фантастику - и не видете подобного на других ресурсах. Если вы знаете другой такой ресурс (кроме БСЧ) - поделитесь знанием.
По поводу доказательств: а что вы готовы счесть доказательством? Какого рода доказательства устроили бы лично вас?
aaa:
Ну с эротикой все ясно - тут у нас полное совпадение.
А как насчет боевиков?
Ах да, мы ж про фантастику!
Извините, увлекся.
Я люблю книжки читать, а не с мониторингом разбираться.
А что вы можете предложить.
Вот и мне интересно:
Мое мнение - вас не устраивает. Самостоятельно изучить вопрос - не-а, это не для вас. На вопрос "что вас бы устроило?" - вы, похоже, и сами не знаете, что ответить.
Вы хотите, чтобы я вам посоветовал - что делать?
aaa:
Вас зовут Н. Г. Чернышевский?
Или В. И. Ульянов-Ленин?
Вы серьезно считаете, что будучи в 2500 км от Москвы и 12000 км от Эквадора,
не имея никакого отношения ни к правоохранителям, ни к правооблаЖателям,
я займусь исследованием вопросов "что происходит?", "кто виноват?" и "что делать?"
Я лучше кофе попью с хз чьего производства сахаром :)
-------------------------------------------------------------------------------------------------------------
Неужели ситуация действительно настолько плачевна? :)
Что до сабжевого проекта - лично я всеми конечностями за, и готова поддерживать по мере сил. Только один вопрос к Jolly Roger - возможен ли запуск такого проекта тут, на либрусеке, или я чего-то не понимаю?
Отв: Распределённые корректоры
Ну это уж точно не ко мне вопрос. "Мопед не мой", я просто на удачу запускаю идею в ноосферу...
Уверен лишь, что если такой проект появится, то мы его задействуем в интересах Либрусека наверняка. :)
Отв: Распределённые корректоры
Спокойствие, только спокойствие.... У нас и у самих планшетные сканеры найдутся! :)
Если серьезно, источник сканов в Рунете далеко не единственный - раз.
Предлагаемый проект - не распределенное сканирование и не распределенный OCR, а именно вычитка. Ей тут и так только ленивый не занимается. :) Думаю, что прочитать и вычитать интересующую книгу целиком - более удобно, чем покусочно.
Отв: Распределённые корректоры
Ну дык. Олдмаглиб и Ершов - с ходу.
Да, но "гуртом батька бить легчей" и такая система позволяет производить вычитку гораздо быстрее и качественнее.
Отв: Распределённые корректоры
Возможно, просто непривычно как-то. Скажем так: я - эгоист, и горд тем, что сам этого достиг. Если кто-нибудь такую систему развернет, готов принять участие в тестировании и эксплуатации. Но поднимать сам даже и пытаться не буду, зашиваюсь :(
Отв: Распределённые корректоры
И это, и то - не очень умные стенания в стиле - ах! что же будет!
В свое время я и сам сканировал книжки и уж с десяток то их по инету гуляет в моем скане. Но потом оказалось, что народ успевает сосканить и выложить раньше, чем я доберусь до любимых авторов (в смысле пока куплю, пока найду время сосканить...). Так что долго ничего не сканил.
Если вдруг окажется, что то, что мне нравится, в бумаге уже давно есть, а в электронном формате нету, будьте спокойны - найду время купить и отсканить. Конечно только тех авторов, которых уважаю. Но вкусы у всех разные, так что не пропадем.
Кроме того, ИМХО, сегодня важнее вычитка. Книжки, в которых все время нужно мысленно одни буквы заменять другими и гадать иногда, что же вообще было написано, уже подзадолбали с тех же фензиновских времен.
А в предлагаемой системе поучаствовал бы безусловно.
Отв: Распределённые корректоры
Что-й то я плохо себе реализацию представляю...
Открытый ОЦР, понимающий русский язык, считай один - CuneiForm.
Сырой, как мох в болоте (я про невиндовый вариант).
Далее - требования к сканам. Они должны быть, видимо, в виде пачки постраничных файлов - а так никто не сканит.
Ну, дежавю ещё можно раздербанить на джипеги, но какчество от этого не повысится... А ПДФ - вообще труба дело.
Угу, ЦПУ-лоад такая хрень будет давать нехилый (хоть и бурстами) - не каждому хостеру понравится.
Вот...
А так - что ж, взять вики-движок (может, докрутить чего), да и выложить "документ", как серию "прошитых" страниц.
В начальный момент - предварительный ОЦР + "иллюстрация" скана.
Правьте до посинения.
Отв: Распределённые корректоры
Идея очень хорошая! Для примера: Сейчас ищу книгу Смирнов Андрей "Дары волшебства". В электронке пока нет, а бумагу не покупаю лет 8. Если бы был скан - помог вычитать. И таких как я, надеюсь здесь много. Так что, дерзай народ мы вас поддержим! А то загнётся литрес с непутёвым фензином - где оперативно брать новинки книжного рынка? Да и качество вычитки некоторых имеющихся текстов оставляет жалкое впечатление.
Отв: Распределённые корректоры
Идея вполне себе интересная. IMHO OCR тут не причем, здесь скорее вычитка и набор ( плюс возможно верстка ) из сканов страниц. Я думаю хранилище страниц из одной книги + какой-нибудь VCS + веб морда/софтина + координатор на каждую книгу -- таким, например, может быть вариант для подобной вычитки экземпляра книги. Оверлода для провайдера здесь не будет, сканеры заливают страницы -> вычитывальщики лочат выложенные страницы и коммитят вычитанне ( набранное ) -> координатор скриптом ( или руками ) собирает готовое -> выкладывает в библиотеку и закрывает текущий проект если нужно ( все готово ).
Думаю, важен такой проект будет не столько для книг в fb2, склолько для книг, в которых важно соответствие верстки.
Вот такое IMHO.
Отв: Распределённые корректоры
Ну, положим, сам редактор можно из WYMeditor'а сделать...
Он - уже "XMLный", для ФБ2 мало чего надо...
А если не FB2/XHTML - тогда как? Что у нас такого для вёрстки есть?
Отв: Распределённые корректоры
Да, с версткой конечно засада, на ум, кроме TeX, быстро ничего не пришло.
Отв: Распределённые корректоры
ото ж...
Отв: Распределённые корректоры
Да можно даже не Вики,а любой нормальный движок с гибкой настройкой прав доступа.
Отв: Распределённые корректоры
Права - сакс.
История/откат - рулез.