DAV
Гость
|
|
« : 23-01-2004 04:47 » |
|
В общих чертах задача звучит так:
Нужен конвертер PDF -> DjVu.
У меня есть книги, каждая книга в отдельном каталоге в виде: - одного pdf; - многих pdf (по одному на страницу); - многих картинок (по одной на страницу).
Все это надо в пакетном режиме перегнать в bundled DjVu в том же каталоге.
Сроки - несколько месяцев, это обсуждаемо.
Если у Вас есть возможность и желание взяться за разработку - буду рад. Сейчас ничего обещать не могу, но по завершении проекта возможна оплата.
|
|
|
Записан
|
|
|
|
grozny
Гость
|
|
« Ответ #1 : 23-01-2004 20:20 » |
|
а чё за документы? картинки векторные или битмэпы?
|
|
|
Записан
|
|
|
|
RXL
|
|
« Ответ #2 : 23-01-2004 21:25 » |
|
www.djvu.comГрафический формат. Появился недавно, патентованный и все такое. Придумали метод, по которому разделяют картинку на объекты разной природы (текст, графика) и применяют к ним разные методы компрессии. Получается очень компактно и с высоким качеством. Бесплатно предлогают только просмоторщик и плагины к браузерам, а остальное только за деньги. Пробовал сие. Самое лучшее применение - сканированный текст - сжимает по самое нехочу. Пробовал фотографии, ранее сжатые jpg и png, распаковать и сжать djvu - выйгрыш не велик. А вот зачем переводить pdf в djvu, я не понимаю. Ведь pdf - это не графический формат, это совсем другое (но картинки включать позваляет). Кстати, оказалось, что есть opensource библиотека для этого: http://www.lizardtech.com/solutions/doc/doc_opensource.phphttp://djvu.sourceforge.net/"The DjVu Reference Library 3.5 was released by Lizardtech under the GNU General Public License version 2."
|
|
|
Записан
|
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
|
|
|
grozny
Гость
|
|
« Ответ #3 : 23-01-2004 22:47 » |
|
Да нет, я считаю, что PDF и DjVu - примерно в одной категории, а именно - категории форматов описания документов.
PDF - это диалект ПостСкрипта, применяемый для описания документов. Главное отличие - Постскрипт - интерпретируемый язык, с обратной польской записью выражений. Отлично подходит для векторной графики (текста). И плохо пригоден для растровой. Т.е. растровые картинки туда вставляются примерно по типу аттачментов в е-мэйл. В отличие от DjVu, где главная сущность - растровый объект, со специальной компрессией двухуровневых битмэпов.
Вся проблема в грамотном чтении PDF и его растрировании. Во-первых, PDF достаточно богатый и навороченный формат, во-вторых, Адоб далеко не альтруистичная компания. Не видел халявной полной библиотеки для работы с PDF. Либо небольшие реверс-инжиниринговые либы, которые умеют что-то одно (растрировать простой текст, например), либо куча денег за адобовскую энжину. Либо я отстал от жизни в этой области, что тоже вероятно...
|
|
|
Записан
|
|
|
|
grozny
Гость
|
|
« Ответ #4 : 23-01-2004 22:59 » |
|
кстати, к вопросу "зачем переводить в DjVu"
- принципиальный недостаток ПДФ - это реально скрипт для интерпретатора (язык ПостСкрипт) - даже текст там - это процедура, отрабатывающая каждую букву. А посему время отображения страницы зависит от сложности страницы. Ну замечали поди - отдельные навороченные ПДФ с кучей графики грузятся/перерисовываются страшно долго, сверкают своими слоями. Оно и понятно - каждый объект при перерисовке заново разлагается в растр, слои потом накладыватся... Тогда как в DjVu всё отрастрировано заранее. Надо только скомпоновать объекты. Потенциально есть возможность создать корявый, долго отображаемый документ и там и там, но в DjVu всё-таки ориентация на уже готовый растр, а в ПДФ есть врождённая наклонность к сложности.
резюме - тот же документ в DjVu будет а) как правило, меньше б) быстрее грузиться
|
|
|
Записан
|
|
|
|
DAV
Гость
|
|
« Ответ #5 : 24-01-2004 07:56 » |
|
grozny, картинки - битмапы, в pdf'ах в большинстве своем - те же картинки, но есть и распознанные. Все эти файлы - отсканированные книги. резюме - тот же документ в DjVu будет а) как правило, меньше б) быстрее грузиться Как я попробовал на своих документах - Any2DjVu жмет их примерно в 5 раз.
|
|
|
Записан
|
|
|
|
Serega
Гость
|
|
« Ответ #6 : 24-01-2004 09:00 » |
|
А как у тебя дела с инетом ? Не проще ли будет написать скрипт который перегонит все в djvu с помощью any2djvu ?
|
|
|
Записан
|
|
|
|
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии
Offline
Пол:
Бодрый птах
|
|
« Ответ #7 : 24-01-2004 09:55 » |
|
Я боюсь, что в данный момент, для полной интеграции из PDF в DjVu не обойтись без покупки библиотеки с полнофункциональным раскрытием PDF - а это - грубо говоря, сильно удорожает проект. Заинтересованных прошу посчитать во сколько обойдется покупка библиотеки по распознаванию из PDF .
Собственно надо слить две библиотеки, что не должно быть сложно, но сколько это будет стоить разработчику.
И сколько обойдется товарищу заказчику. Ведь заказ частный, соответственно все зависит от его возможностей.
|
|
|
Записан
|
А птичку нашу прошу не обижать!!!
|
|
|
|
Тарас
Гость
|
|
« Ответ #9 : 25-01-2004 10:06 » |
|
вот нашел - мож пригодится (все зависит от количества книг конечно): "При конвертировании я использую последовательностью Acrobat -> TIFF -> DjVu. Советую при сохранении в TIFF отключить компрессию (чтобы меньше загружать процессор), поставить монохромный режим (если конечно книга не цветная) и разрешение на 300 dpi. Некоторые книги в PDF защищены от изменения, поэтому просто так сохранить их в TIFF не удасться. Для этого нужно использовать программу Advanced PDF Password Recovery небезызвестной Elcomsoft . Незарегистрированная версия сохраняет лишь 10% страниц, так что поищите для нее ключ. Скрыть 36 байт информации (именно такова его длинна) в Интернет сложно . Но если вы его не найдете - напишите мне, я поделюсь. Затем в DjVu Solo (2,1 Мб) открываете сначало первый TIFF, потом счелкаете на нем и выбераете "Insert Page(s) After...", добавляя все оставшиеся страницы, кроме первой. Если страниц более 500, то эту процедуру нужно выполнить несколько раз. Учтите, что страницы добавляются достаточно медленно и может возникнуть впечатление, что программа зависла, но это не так. Когда все страницы добавятся, выбераете сохранения. Чтобы получить книгу из одного файла - режим Bundled. Задаете имя файла, выбирате разрешение (я всегда оставлял 300) и решим - Scanned (если есть цветные рисунки или полутона) или Bitonal (если используется только 2 цвета, как в большинстве сканов книг). Существует и другой способ, хорошо подходящий для файлов, уже размещенных в Интернет. Для конвертирования можно использовать сервер Any2DjVu, но он не может обработать некоторые PDF, которые хорошо читаются Акробатом, а иногда просто не конвертирует без всяких сообщений. Lizardtech выпускает конвекторы для командной строки, с помощью которых можно сконвертировать PDF в DjVu без промежуточных действий, но стоят они около 5000 $." или другое: "Если книга состоит из нескольких PDF-файлов (предельный случай: одна страница - один файл), их предварительно нужно собрать вместе. Если имена файлов цифровые и в начало некоторых их них нужно добавить нули (7.pdf -> 007.pdf), то воспользуйтесь утилитой fzero. Объединять PDF-файлы можно полной версией Adobe Acrobat (открыть первый из них, а затем "перетащить" на него остальные файлы), но гораздо быстрее это делает pdcat. При необходимости в Acrobat можно удалить лишние страницы (Document -> Delete Pages...) и/или повернуть страницы (Document -> Rotate Pages...). Преобразование с помощью any2djvu может занять много времени (рекорд для некоторых моих файлов составил 4 часа, но в основном они конвертируются значительно быстрее), поэтому можно поступить так: дождаться загрузки файла на сервер, записать номер, который был ему автоматически присвоен, и не дожидаясь результатов конвертирования начать закачивать другой файл. Когда все файлы закачены, можно идти в каталог http://any2djvu.djvuzone.org/djvu/NNNNNN (где NNNNNN - первые 6 цифр в номере, присвоенном файлу) и забирать полученные документы djvu. Учтите, что преобразование занимает некоторое время и файлы в этом каталоге появятся не сразу. Если каких-то файлов нет, то стоит проверить их наличие через несколько часов. Есть другой вариант - воспользоваться скриптом (автор - castleofmusic), автоматизирующим процесс закачивания, преобразования и скачивание полученных файлов. Если во время конвертирования у Вас, как и у меня, из-за таймаута часто останавливается обновление страницы, то скрипт будет работать не эффективно, т.к. не сможет получить итоговый результат. Поэтому, более предпочтительным будет предыдущий способ."
|
|
|
Записан
|
|
|
|
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии
Offline
Пол:
Бодрый птах
|
|
« Ответ #10 : 25-01-2004 11:09 » |
|
Мда думаю заказ уже не ликвиден. Или как?
|
|
|
Записан
|
А птичку нашу прошу не обижать!!!
|
|
|
DAV
Гость
|
|
« Ответ #11 : 28-01-2004 04:42 » |
|
Serega, Тарас, книг слишком много, перегонять через инет дороговато.
Гром, если есть возможность сделать на свободной библиотеке, то заказ все еще интересен.
|
|
|
Записан
|
|
|
|
Serega
Гость
|
|
« Ответ #12 : 04-03-2004 13:38 » |
|
На самом деле такой конвертер очень полезен, мне вдруг тоже понадобился
|
|
|
Записан
|
|
|
|
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии
Offline
Пол:
Бодрый птах
|
|
« Ответ #13 : 04-03-2004 19:24 » |
|
никому оказалось неинтересным. Или решили что слишком тяжко.. Увы.
|
|
|
Записан
|
А птичку нашу прошу не обижать!!!
|
|
|
DAV
Гость
|
|
« Ответ #14 : 05-03-2004 07:13 » |
|
Ну чтож, будем искать...
|
|
|
Записан
|
|
|
|
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии
Offline
Пол:
Бодрый птах
|
|
« Ответ #15 : 05-03-2004 11:54 » |
|
DAV, ты главное не теряйся, возможно тебе легче написать это самому получив у нас помощь попросту...
|
|
|
Записан
|
А птичку нашу прошу не обижать!!!
|
|
|
tpkn
Гость
|
|
« Ответ #16 : 07-03-2004 20:39 » |
|
Господа программеры,
случайно на вашем форуме, прочел ваши очень компрегенсивные конверсации и хотел бы только заметить, что дискашн идет некорректно, а посему и неконструктивно.
Сам я недавно заинтересовался темой дажавю ввиду необходимости перевести энное множество книг в графику, а здесь оказался вовсе по другому поводу и собирался задавать другие вопросы. Но раз уж тут разговор про дежавю, то с радостью поделюсь соображениями, если нет возражений. Во-первых, такой конвертер уже есть (сам читал про него, автор еще сокрушался (почему и запомнил), что "сторонники пэдээфа только от одной такой конвертации перевернуться вполне в гробу" или что-то в этом роде. То есть, существуют уже процедуры конвертации в обе стороны. С чего бы и следовало начать. А тут, как я вижу, сразу взялись обсуждать технические вопросы, а вопрос-то поначалу вовсе не технический, а практический: не сделано ли это уже? - Сделано. Вопрос только в том, где это можно взять. Но это уже другой вопрос.
Далее. Если уж так нетерпится говорить-заниматься техническими вопросами, то я думаю, что надо было бы подумать не о прямой конвертации а с испорльзованием промежуточной. Даже если бы не было конвертеров PDF --> DjVu --> vice versa, то легко предположить (а так оно и есть), что уже сделаны конвертеры из этих самых форматов в другие, которые опять же переводятся в эти самые. А эти самые другие уже заложены в существующие 2 (ДВЕ) всего программы, доступные простым смертным во всем интеренете. 1-я бесплатная DjVu Solo 3.1 от нынешнего владельца лайсенза, 2-я со статусом Про DjVuerPro. К нему у меня крек, этого достаточно на 30100 сканов. Потом надо возобновлять. Обе проги 1 и 2 функционально друг друга не покрывают, поэтому надо ставить обе. -- Видите, это политика владельцев стандарта под названием "собака на сене". Многие библиотеки мира, поддавшись искушению, решили перейти с пэдээфа на дежавю, но, поскольку владельцы прав крупно лажанулись, то перехода библиотек так и не состоялось, библиотеки отказались от дежавю официально и возобновили перевод книг опять в пэдээф вместо дежавю. Сам читал объявление такое на сайте библиотеки Конгресса.
После того как я подробно изложил свои соображения, мне бы хотелось также получить консультацию по волнующей меня теме.
С почтением-с, Профессор
|
|
|
Записан
|
|
|
|
tpkn
Гость
|
|
« Ответ #17 : 07-03-2004 20:55 » |
|
|
|
|
Записан
|
|
|
|
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии
Offline
Пол:
Бодрый птах
|
|
« Ответ #18 : 08-03-2004 07:00 » |
|
tpkn, Voz'meshsya???
|
|
|
Записан
|
А птичку нашу прошу не обижать!!!
|
|
|
tpkn
Гость
|
|
« Ответ #19 : 08-03-2004 16:01 » |
|
Возьмусь, но не за это.
|
|
|
Записан
|
|
|
|
DAV
Гость
|
|
« Ответ #20 : 11-03-2004 12:18 » |
|
tpkn, а можно поподробнее про твой опыт работы с djvu? DjVu Solo 3.1 уже кстати не является бесплатной. Сделано. Вопрос только в том, где это можно взять. Но это уже другой вопрос.
Кроме он-лайнового Any2Djvu я ничего не видел. Подскажи хотя бы в какую сторону искать.
|
|
|
Записан
|
|
|
|
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии
Offline
Пол:
Бодрый птах
|
|
« Ответ #21 : 11-03-2004 15:18 » |
|
tpkn, Za chto? Zhdu.
|
|
|
Записан
|
А птичку нашу прошу не обижать!!!
|
|
|
Anonymous
Гость
|
|
« Ответ #22 : 09-05-2004 01:07 » |
|
DAV ЃLЃLЃLЃLЃLЃLЃLЃL „I„x„r„y„~„y, „t„p„r„~„Ђ „ѓ„ђ„t„p „~„u „x„p„‡„Ђ„t„y„|. „T „}„u„~„‘ „r„ѓ„u„s„Ђ 2 „Ѓ„‚„Ђ„s„y „t„|„‘ „r„y„~„t„Ќ Solo 3.1 „y DjVuer Pro („ѓ „{„‚„u„{„Ђ„}). „P„‚„Ђ„ѓ„}„Ђ„„„‚„‹„y„{ „|„…„‰„Љ„y„z „ѓ„‰„y„„„p„u„„„ѓ„‘ „r „Џ„„„Ђ„} „†„Ђ„‚„}„p„„„u („{„p„{ „~„y „ѓ„„„‚„p„~„~„Ђ) IrfanView - „Ѓ„Ђ „{„p„‰„u„ѓ„„„r„… „y„x„Ђ„q„‚„p„w„u„~„y„‘ („Ђ„ѓ„r„Ђ„y„| „w„u „‰„u„|„Ђ„r„u„{).
„N„Ђ „~„p „ѓ„p„z„„„u „Ѓ„‚„p„r„Ђ„Ђ„q„|„p„t„p„„„u„|„u„z „r„ѓ„u „w„u „~„p„Ѓ„y„ѓ„p„~„Ђ, „‰„„„Ђ DjVu-„†„Ђ„‚„}„p„„ „Ѓ„Ђ„{„p „~„u „Ђ„Ѓ„„„y„}„y„x„y„‚„Ђ„r„p„~ „t„|„‘ „{„Ђ„~„r„u„‚„„„p„?„y„y „†„p„z„|„Ђ„r („Ѓ„Ђ„Џ„„„Ђ„}„… „Ђ„~„y „y „Ѓ„‚„u„t„|„p„s„p„ђ„„ „Ѓ„u„‚„u„ѓ„Ќ„|„p„„„Ћ „~„p any2djvu), „p „Ѓ„‚„u„t„ѓ„„„p„r„|„‘„ђ„„ „Ѓ„…„q„|„y„{„u „t„|„‘ „Ѓ„Ђ„Ѓ„…„|„‘„‚„y„x„p„?„y„y „Ѓ„‚„u„y„}„…„‹„u„ѓ„„„r „†„Ђ„‚„}„p„„„p „Ѓ„‚„y „ѓ„{„p„~„y„‚„Ђ„r„p„~„y„y „y„x„Ђ„q„‚„p„w„u„~„y„z, „p „~„u „Ѓ„‚„y „{„Ђ„~„r„u„‚„„„p„?„y„y --- „y „Џ„„„Ђ „Ѓ„Ђ„|„y„„„y„{„p „{„Ђ„}„Ѓ„p„~„y„y-„Ѓ„‚„p„r„Ђ„Ђ„q„|„p„t„p„„„u„|„‘!!! „S„Ђ „u„ѓ„„„Ћ, „q„…„t„…„„ „Ѓ„‚„u„t„|„p„s„p„„„Ћ „‚„u„p„|„Ћ„~„Ќ„} „Ѓ„‚„Ђ„y„x„r„Ђ„t„y„„„u„|„‘„} „ѓ„{„p„~„u„‚„Ђ„r, „q„y„q„|„y„Ђ„„„u„{„p„}, „r„u„t„Ђ„}„ѓ„„„r„p„} „t„|„‘ „‚„p„q„Ђ„„„Ќ „ѓ „t„Ђ„{„p„}„y ...
„B„ѓ„u „Џ„„„Ђ „~„p„ѓ„„„‚„p„y„r„p„u„„ „~„p „Ѓ„u„ѓ„ѓ„y„}„y„ѓ„„„y„‰„u„ѓ„{„y„z „|„p„t „Ѓ„‚„y „Ђ„q„ѓ„…„w„t„u„~„y„y „r„Ђ„x„}„Ђ„w„~„Ђ„ѓ„„„y „ѓ„Ђ„x„t„p„~„y„‘ „Ѓ„Ђ„|„~„Ђ„?„u„~„~„Ђ„s„Ђ „{„Ђ„~„r„u„‚„„„u„‚„p. „R„y„t„y„„ „ѓ„Ђ„q„p„{„p „~„p „ѓ„u„~„u...
|
|
|
Записан
|
|
|
|
Anonymous
Гость
|
|
« Ответ #23 : 09-05-2004 01:09 » |
|
Izvinite, cho t komment ne poluchilsja, sorry
|
|
|
Записан
|
|
|
|
tpkn
Гость
|
|
« Ответ #24 : 09-05-2004 02:00 » |
|
Извините, давно не был на сайте.
Я хотел бы по поводу проекта еще заметить, что правообладатель НЕ ОПТИМИЗИРОВАЛ -- по его собственному заявлению на сайте -- пока этот формат для операций конвертации файлов, а продвигает его как альтернативную возможность форматирования ПРИ СКАНИРОВАНИИ (поэтому предлагается для производителей сканеров, библиотек и документооборота). Отсюда и пересылка на свой собственный сервер для конвертации (а так бы зачем эта морока им была нужна?). Стоимость программы для конвертации пакета Enterprise составляет стоимость самой лицензии $8000.
Мой опыт с виндой - только с 2 прогами: Solo и DjVuer Pro (с креком). Лучший по качеству вьюер - IrfanView (значит мужик освоил формат через плагин). В Линухе - значительно более накропали прог и инструментов уже и все бесплатно.
|
|
|
Записан
|
|
|
|
tpkn
Гость
|
|
« Ответ #25 : 09-05-2004 22:02 » |
|
Нового пока мало о формате появилось, но вот материалы в концентрированном виде довольно подробно :
_http://tom.imm.uran.ru/~u1318/djvu/
И еще майские 2004 г. ссылки:
_http://yusoft.kulichki.net/russian/doc/AboutDjVu.htm _http://yusoft.kulichki.net/russian/doc/DjVu_Solo_FAQ.htm _http://yusoft.kulichki.net/russian/doc/Make_DjVu_Book.htm
|
|
|
Записан
|
|
|
|
tpkn
Гость
|
|
« Ответ #26 : 09-05-2004 22:06 » |
|
(ссылки непрямые, подчерк убрать надо)
|
|
|
Записан
|
|
|
|
tpkn
Гость
|
|
« Ответ #27 : 09-05-2004 22:27 » |
|
У меня опыт в основном до djvu был с tiff group 4 compressed (fax'овый формат). Ну очень хорошо работает в электронных книгах. Не очень сильно отличается от djvu по объему файлов - не более 2-х раз максимум. Если нужно создавать электронные книги из бумажных путем сканирования, то очень советую. Поэтому у меня вопрос: Если мутота с djvu кому-то надоест, давайте сделаем графическую оболочку (вьюер) для книг, в которую можно любую книгу вставить будет. Гулять по книге (том, часть, глава, параграф, подпараграф) можно по файлу навигации в HTML, щелкая по сноске и попадая на нужный графический файл-страницу книги: 1 скан= 2 страницы. Куда же проще. Можно конечно любым вьюером книгу смотреть-читать, но они чересчур многофункциональны, много лишнего. Нужна именно оболочка под книгу: нажал пробел/бэкспейс - листанье страниц, нажал +/- - ресайзинг. Может кто-то захочет взяться на такой проект?
|
|
|
Записан
|
|
|
|
tpkn
Гость
|
|
« Ответ #28 : 23-05-2004 15:23 » |
|
Если Solo уже платной стала, то есть третья и последняя прога для djvj формата: Djvu Shop -- она предшествовала Solo и тоже бесплатная. От этой же самой фирмы (но искать не на фирменном сайте).
По опыту работы могу еще раз сказать, что формат tiff group 4 compressed практически по объему файлов аналогичный djvu. Кто интересуется переводом бумажных книг в электронные (без распознавания!!!), давайте создадим графическую оболочку для этого формата. tiff хорошо описан и разработан. Ибо djvu представляется глобально неподъемным практически, как показывает жизнь.
|
|
|
Записан
|
|
|
|
DAV
Гость
|
|
« Ответ #29 : 26-05-2004 10:33 » |
|
В принципе идея вьювера интересная. Единственный непонятный мне вопрос - как можно организовать управление такими книгами. Например добавить/переместить/удалить кучу файлов одной книги не очень красиво получается.
P.S. На данный момент мы отказались от использования djvu.
|
|
|
Записан
|
|
|
|
|