Форум программистов «Весельчак У»
  *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

  • Рекомендуем проверить настройки временной зоны в вашем профиле (страница "Внешний вид форума", пункт "Часовой пояс:").
  • У нас больше нет рассылок. Если вам приходят письма от наших бывших рассылок mail.ru и subscribe.ru, то знайте, что это не мы рассылаем.
   Начало  
Наши сайты
Помощь Поиск Календарь Почта Войти Регистрация  
 
Страниц: [1] 2  Все   Вниз
  Печать  
Автор Тема: Конвертер PDF -> DjVu  (Прочитано 80037 раз)
0 Пользователей и 1 Гость смотрят эту тему.
DAV
Гость
« : 23-01-2004 04:47 » 

В общих чертах задача звучит так:

Нужен конвертер PDF -> DjVu.

У меня есть книги, каждая книга в отдельном каталоге в виде:
- одного pdf;
- многих pdf (по одному на страницу);
- многих картинок (по одной на страницу).

Все это надо в пакетном режиме перегнать в bundled DjVu в том же каталоге.

Сроки - несколько месяцев, это обсуждаемо.

Если у Вас есть возможность и желание взяться за разработку - буду рад.
Сейчас ничего обещать не могу, но по завершении проекта возможна оплата.
Записан
grozny
Гость
« Ответ #1 : 23-01-2004 20:20 » 

а чё за документы? картинки векторные или битмэпы?
Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #2 : 23-01-2004 21:25 » 

www.djvu.com
Графический формат.
Появился недавно, патентованный и все такое. Придумали метод, по которому разделяют картинку на объекты разной природы (текст, графика) и применяют к ним разные методы компрессии. Получается очень компактно и с высоким качеством.
Бесплатно предлогают только просмоторщик и плагины к браузерам, а остальное только за деньги.

Пробовал сие. Самое лучшее применение - сканированный текст - сжимает по самое нехочу. Пробовал фотографии, ранее сжатые jpg и png, распаковать и сжать djvu - выйгрыш не велик.

А вот зачем переводить pdf в djvu, я не понимаю. Ведь pdf - это не графический формат, это совсем другое (но картинки включать позваляет).

Кстати, оказалось, что есть opensource библиотека для этого:
http://www.lizardtech.com/solutions/doc/doc_opensource.php
http://djvu.sourceforge.net/
"The DjVu Reference Library 3.5 was released by Lizardtech under the GNU General Public License version 2."
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
grozny
Гость
« Ответ #3 : 23-01-2004 22:47 » 

Да нет, я считаю, что PDF и DjVu - примерно в одной категории, а  именно - категории форматов описания документов.

PDF - это диалект ПостСкрипта, применяемый для описания документов. Главное отличие - Постскрипт - интерпретируемый язык, с обратной польской записью выражений. Отлично подходит для векторной графики (текста). И плохо пригоден для растровой. Т.е. растровые картинки туда вставляются примерно по типу аттачментов в е-мэйл. В отличие от DjVu, где главная сущность - растровый объект, со специальной компрессией двухуровневых битмэпов.

Вся проблема в грамотном чтении PDF и его растрировании. Во-первых, PDF достаточно богатый и навороченный формат, во-вторых, Адоб далеко не альтруистичная компания. Не видел халявной полной библиотеки для работы с PDF. Либо небольшие реверс-инжиниринговые либы, которые умеют что-то одно (растрировать простой текст, например), либо куча денег за адобовскую энжину. Либо я отстал от жизни в этой области, что тоже вероятно...
Записан
grozny
Гость
« Ответ #4 : 23-01-2004 22:59 » 

кстати, к вопросу "зачем переводить в DjVu"

- принципиальный недостаток ПДФ - это реально скрипт для интерпретатора (язык ПостСкрипт) - даже текст там - это процедура, отрабатывающая каждую букву. А посему время отображения страницы зависит от сложности страницы. Ну замечали поди - отдельные навороченные ПДФ с кучей графики грузятся/перерисовываются страшно долго, сверкают своими слоями. Оно и понятно - каждый объект при перерисовке заново разлагается в растр, слои потом накладыватся... Тогда как в DjVu всё отрастрировано заранее. Надо только скомпоновать объекты. Потенциально есть возможность создать корявый, долго отображаемый документ и там и там, но в DjVu всё-таки ориентация на уже готовый растр, а в ПДФ есть врождённая наклонность к сложности.

резюме - тот же документ в DjVu будет а) как правило, меньше б) быстрее грузиться
Записан
DAV
Гость
« Ответ #5 : 24-01-2004 07:56 » 

grozny, картинки - битмапы, в pdf'ах в большинстве своем - те же картинки, но есть и распознанные. Все эти файлы - отсканированные книги.

Цитата: grozny
резюме - тот же документ в DjVu будет а) как правило, меньше б) быстрее грузиться

Как я попробовал на своих документах - Any2DjVu жмет их примерно в 5 раз.
Записан
Serega
Гость
« Ответ #6 : 24-01-2004 09:00 » 

А как у тебя дела с инетом ?
Не проще ли будет написать скрипт который перегонит все в djvu с помощью any2djvu ?
Записан
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии

il
Offline Offline
Пол: Мужской
Бодрый птах


« Ответ #7 : 24-01-2004 09:55 » 

Я боюсь, что в данный момент, для полной интеграции из PDF в DjVu не обойтись без покупки библиотеки с полнофункциональным раскрытием  PDF - а это - грубо говоря, сильно удорожает проект.
Заинтересованных прошу посчитать во сколько обойдется покупка библиотеки по распознаванию из PDF .

Собственно надо слить две библиотеки, что не должно быть сложно, но сколько это будет стоить разработчику.

И сколько обойдется товарищу заказчику.
Ведь заказ частный, соответственно все зависит от его возможностей.
Записан

А птичку нашу прошу не обижать!!!
grozny
Гость
« Ответ #8 : 24-01-2004 20:42 » 

есть фришная либа для ПДФ (Etymon, Java)
http://sourceforge.net/projects/pjx/

а цены на коммерческие либы (не-Адоб, Адоб дороже, но сколько - даж не пишут)

PDFlib+PDI 5 US-$ 900

http://www.pdflib.com/products/pdflib/pdi.html

http://www.pdflib.com/purchase/priceinfo.html
Записан
Тарас
Гость
« Ответ #9 : 25-01-2004 10:06 » 

вот нашел - мож пригодится (все зависит от количества книг конечно):

"При конвертировании я использую последовательностью Acrobat -> TIFF -> DjVu. Советую при сохранении в TIFF отключить компрессию (чтобы меньше загружать процессор), поставить монохромный режим (если конечно книга не цветная) и разрешение на 300 dpi. Некоторые книги в PDF защищены от изменения, поэтому просто так сохранить их в TIFF не удасться. Для этого нужно использовать программу Advanced PDF Password Recovery небезызвестной Elcomsoft . Незарегистрированная версия сохраняет лишь 10% страниц, так что поищите для нее ключ. Скрыть 36 байт информации (именно такова его длинна) в Интернет сложно . Но если вы его не найдете - напишите мне, я поделюсь.

Затем в DjVu Solo (2,1 Мб) открываете сначало первый TIFF, потом счелкаете на нем и выбераете "Insert Page(s) After...", добавляя все оставшиеся страницы, кроме первой. Если страниц более 500, то эту процедуру нужно выполнить несколько раз. Учтите, что страницы добавляются достаточно медленно и может возникнуть впечатление, что программа зависла, но это не так. Когда все страницы добавятся, выбераете сохранения. Чтобы получить книгу из одного файла - режим Bundled. Задаете имя файла, выбирате разрешение (я всегда оставлял 300) и решим - Scanned (если есть цветные рисунки или полутона) или Bitonal (если используется только 2 цвета, как в большинстве сканов книг).

Существует и другой способ, хорошо подходящий для файлов, уже размещенных в Интернет. Для конвертирования можно использовать сервер Any2DjVu, но он не может обработать некоторые PDF, которые хорошо читаются Акробатом, а иногда просто не конвертирует без всяких сообщений.

Lizardtech выпускает конвекторы для командной строки, с помощью которых можно сконвертировать PDF в DjVu без промежуточных действий, но стоят они около 5000 $."

или другое:

"Если книга состоит из нескольких PDF-файлов (предельный случай: одна страница - один файл), их предварительно нужно собрать вместе. Если имена файлов цифровые и в начало некоторых их них нужно добавить нули (7.pdf -> 007.pdf), то воспользуйтесь утилитой fzero. Объединять PDF-файлы можно полной версией Adobe Acrobat (открыть первый из них, а затем "перетащить" на него остальные файлы), но гораздо быстрее это делает pdcat.

При необходимости в Acrobat можно удалить лишние страницы (Document -> Delete Pages...) и/или повернуть страницы (Document -> Rotate Pages...).

Преобразование с помощью any2djvu может занять много времени (рекорд для некоторых моих файлов составил 4 часа, но в основном они конвертируются значительно быстрее), поэтому можно поступить так: дождаться загрузки файла на сервер, записать номер, который был ему автоматически присвоен, и не дожидаясь результатов конвертирования начать закачивать другой файл. Когда все файлы закачены, можно идти в каталог http://any2djvu.djvuzone.org/djvu/NNNNNN (где NNNNNN - первые 6 цифр в номере, присвоенном файлу) и забирать полученные документы djvu. Учтите, что преобразование занимает некоторое время и файлы в этом каталоге появятся не сразу. Если каких-то файлов нет, то стоит проверить их наличие через несколько часов.

Есть другой вариант - воспользоваться скриптом (автор - castleofmusic), автоматизирующим процесс закачивания, преобразования и скачивание полученных файлов. Если во время конвертирования  у Вас, как и у меня, из-за таймаута часто останавливается обновление страницы, то скрипт будет работать не эффективно, т.к. не сможет получить итоговый результат. Поэтому, более предпочтительным будет предыдущий способ."
Записан
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии

il
Offline Offline
Пол: Мужской
Бодрый птах


« Ответ #10 : 25-01-2004 11:09 » 

Мда думаю заказ уже не ликвиден. Или как?
Записан

А птичку нашу прошу не обижать!!!
DAV
Гость
« Ответ #11 : 28-01-2004 04:42 » 

Serega, Тарас, книг слишком много, перегонять через инет дороговато.

Гром, если есть возможность сделать на свободной библиотеке, то заказ все еще интересен.
Записан
Serega
Гость
« Ответ #12 : 04-03-2004 13:38 » 

На самом деле такой конвертер очень полезен, мне вдруг тоже понадобился Улыбаюсь
Записан
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии

il
Offline Offline
Пол: Мужской
Бодрый птах


« Ответ #13 : 04-03-2004 19:24 » 

никому оказалось неинтересным.
Или решили что слишком тяжко..
Увы.
Записан

А птичку нашу прошу не обижать!!!
DAV
Гость
« Ответ #14 : 05-03-2004 07:13 » 

Ну чтож, будем искать...
Записан
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии

il
Offline Offline
Пол: Мужской
Бодрый птах


« Ответ #15 : 05-03-2004 11:54 » 

DAV, ты главное не теряйся, возможно тебе легче написать это самому получив у нас помощь попросту...
Записан

А птичку нашу прошу не обижать!!!
tpkn
Гость
« Ответ #16 : 07-03-2004 20:39 » 

Господа программеры,

случайно на вашем форуме, прочел ваши очень компрегенсивные конверсации и хотел бы только заметить, что дискашн идет некорректно, а посему и неконструктивно.

Сам я недавно заинтересовался темой дажавю ввиду необходимости перевести энное множество книг в графику, а здесь оказался вовсе по другому поводу и собирался задавать другие вопросы. Но раз уж тут разговор про дежавю, то с радостью поделюсь соображениями, если нет возражений.
Во-первых, такой конвертер уже есть (сам читал про него, автор еще сокрушался (почему и запомнил), что "сторонники пэдээфа только от одной такой конвертации перевернуться вполне в гробу" или что-то в этом роде. То есть, существуют уже процедуры конвертации  в обе стороны. С чего бы и следовало начать. А тут, как я вижу, сразу взялись обсуждать технические вопросы, а вопрос-то поначалу вовсе не технический, а практический: не сделано ли это уже? - Сделано. Вопрос только в том, где это можно взять.
Но это уже другой вопрос.

Далее. Если уж так нетерпится говорить-заниматься техническими вопросами, то я думаю, что надо было бы подумать не о прямой конвертации а с испорльзованием промежуточной. Даже если бы не было конвертеров PDF --> DjVu --> vice versa, то легко предположить (а так оно и есть), что уже сделаны конвертеры из этих самых форматов в другие, которые опять же переводятся в эти самые. А эти самые другие уже заложены в существующие 2 (ДВЕ)  всего программы, доступные простым смертным во всем интеренете.
1-я бесплатная DjVu Solo 3.1 от нынешнего владельца лайсенза, 2-я со статусом Про DjVuerPro. К нему у меня крек, этого достаточно на 30100 сканов. Потом надо возобновлять. Обе проги 1 и 2 функционально друг друга не покрывают, поэтому надо ставить обе.   -- Видите, это политика владельцев стандарта под названием "собака на сене".  Многие библиотеки мира, поддавшись искушению, решили перейти с пэдээфа на дежавю, но, поскольку владельцы прав крупно лажанулись, то перехода библиотек так и не состоялось, библиотеки отказались от дежавю официально и возобновили перевод книг опять в пэдээф вместо дежавю. Сам читал объявление такое на сайте библиотеки Конгресса.

После того как я подробно изложил свои соображения, мне бы хотелось также получить консультацию по волнующей меня теме.

С почтением-с,
Профессор
Записан
tpkn
Гость
« Ответ #17 : 07-03-2004 20:55 » 

Дополнительная инфрмация:
http://djvu.sourceforge.net/links.html
http://www.djvuzone.org/home.html  razdel tutorial
http://yann.lecun.com/ex/djvu/index.html
Записан
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии

il
Offline Offline
Пол: Мужской
Бодрый птах


« Ответ #18 : 08-03-2004 07:00 » 

tpkn, Voz'meshsya???
Записан

А птичку нашу прошу не обижать!!!
tpkn
Гость
« Ответ #19 : 08-03-2004 16:01 » 

Возьмусь, но не за это.
Записан
DAV
Гость
« Ответ #20 : 11-03-2004 12:18 » 

tpkn, а можно поподробнее про твой опыт работы с djvu?

DjVu Solo 3.1 уже кстати не является бесплатной.

Цитата
Сделано. Вопрос только в том, где это можно взять.
Но это уже другой вопрос.

Кроме он-лайнового Any2Djvu я ничего не видел. Подскажи хотя бы в какую сторону искать.
Записан
Гром
Птычк. Тьфу, птычник... Вот!
Готовлюсь к пенсии

il
Offline Offline
Пол: Мужской
Бодрый птах


« Ответ #21 : 11-03-2004 15:18 » 

tpkn, Za chto?Не понял
Zhdu.
Записан

А птичку нашу прошу не обижать!!!
Anonymous
Гость
« Ответ #22 : 09-05-2004 01:07 » 

DAV
ЃLЃLЃLЃLЃLЃLЃLЃL
„I„x„r„y„~„y, „t„p„r„~„Ђ „ѓ„ђ„t„p „~„u „x„p„‡„Ђ„t„y„|.
„T „}„u„~„‘ „r„ѓ„u„s„Ђ 2 „Ѓ„‚„Ђ„s„y „t„|„‘ „r„y„~„t„Ќ Solo 3.1 „y DjVuer Pro („ѓ „{„‚„u„{„Ђ„}).
„P„‚„Ђ„ѓ„}„Ђ„„„‚„‹„y„{ „|„…„‰„Љ„y„z „ѓ„‰„y„„„p„u„„„ѓ„‘ „r „Џ„„„Ђ„} „†„Ђ„‚„}„p„„„u („{„p„{ „~„y „ѓ„„„‚„p„~„~„Ђ) IrfanView - „Ѓ„Ђ „{„p„‰„u„ѓ„„„r„… „y„x„Ђ„q„‚„p„w„u„~„y„‘ („Ђ„ѓ„r„Ђ„y„| „w„u „‰„u„|„Ђ„r„u„{).

„N„Ђ „~„p „ѓ„p„z„„„u „Ѓ„‚„p„r„Ђ„Ђ„q„|„p„t„p„„„u„|„u„z „r„ѓ„u „w„u „~„p„Ѓ„y„ѓ„p„~„Ђ, „‰„„„Ђ DjVu-„†„Ђ„‚„}„p„„ „Ѓ„Ђ„{„p „~„u „Ђ„Ѓ„„„y„}„y„x„y„‚„Ђ„r„p„~ „t„|„‘ „{„Ђ„~„r„u„‚„„„p„?„y„y „†„p„z„|„Ђ„r („Ѓ„Ђ„Џ„„„Ђ„}„… „Ђ„~„y „y „Ѓ„‚„u„t„|„p„s„p„ђ„„ „Ѓ„u„‚„u„ѓ„Ќ„|„p„„„Ћ „~„p any2djvu), „p „Ѓ„‚„u„t„ѓ„„„p„r„|„‘„ђ„„ „Ѓ„…„q„|„y„{„u „t„|„‘ „Ѓ„Ђ„Ѓ„…„|„‘„‚„y„x„p„?„y„y „Ѓ„‚„u„y„}„…„‹„u„ѓ„„„r „†„Ђ„‚„}„p„„„p „Ѓ„‚„y „ѓ„{„p„~„y„‚„Ђ„r„p„~„y„y „y„x„Ђ„q„‚„p„w„u„~„y„z, „p „~„u „Ѓ„‚„y „{„Ђ„~„r„u„‚„„„p„?„y„y --- „y „Џ„„„Ђ „Ѓ„Ђ„|„y„„„y„{„p „{„Ђ„}„Ѓ„p„~„y„y-„Ѓ„‚„p„r„Ђ„Ђ„q„|„p„t„p„„„u„|„‘!!! „S„Ђ „u„ѓ„„„Ћ, „q„…„t„…„„ „Ѓ„‚„u„t„|„p„s„p„„„Ћ „‚„u„p„|„Ћ„~„Ќ„} „Ѓ„‚„Ђ„y„x„r„Ђ„t„y„„„u„|„‘„} „ѓ„{„p„~„u„‚„Ђ„r, „q„y„q„|„y„Ђ„„„u„{„p„}, „r„u„t„Ђ„}„ѓ„„„r„p„} „t„|„‘ „‚„p„q„Ђ„„„Ќ „ѓ „t„Ђ„{„p„}„y ...

„B„ѓ„u „Џ„„„Ђ „~„p„ѓ„„„‚„p„y„r„p„u„„ „~„p „Ѓ„u„ѓ„ѓ„y„}„y„ѓ„„„y„‰„u„ѓ„{„y„z „|„p„t „Ѓ„‚„y „Ђ„q„ѓ„…„w„t„u„~„y„y „r„Ђ„x„}„Ђ„w„~„Ђ„ѓ„„„y „ѓ„Ђ„x„t„p„~„y„‘ „Ѓ„Ђ„|„~„Ђ„?„u„~„~„Ђ„s„Ђ „{„Ђ„~„r„u„‚„„„u„‚„p. „R„y„t„y„„ „ѓ„Ђ„q„p„{„p „~„p „ѓ„u„~„u...
Записан
Anonymous
Гость
« Ответ #23 : 09-05-2004 01:09 » 

Izvinite, cho t komment ne poluchilsja, sorry
Записан
tpkn
Гость
« Ответ #24 : 09-05-2004 02:00 » 

Извините, давно не был на сайте.

Я хотел бы по поводу проекта еще заметить, что правообладатель НЕ ОПТИМИЗИРОВАЛ -- по его собственному заявлению на сайте -- пока этот формат для операций конвертации файлов, а продвигает его как альтернативную  возможность форматирования ПРИ СКАНИРОВАНИИ (поэтому предлагается для производителей сканеров, библиотек и документооборота). Отсюда и пересылка на свой собственный сервер для конвертации (а так бы зачем эта морока им была нужна?). Стоимость программы для конвертации пакета Enterprise составляет стоимость самой лицензии $8000.

Мой опыт с виндой - только с 2 прогами: Solo и DjVuer Pro (с креком).
Лучший по качеству вьюер - IrfanView (значит мужик освоил формат через плагин).
В Линухе - значительно более накропали прог и инструментов уже и все бесплатно.
Записан
tpkn
Гость
« Ответ #25 : 09-05-2004 22:02 » new

Нового пока мало о формате появилось, но вот материалы в концентрированном виде довольно подробно :

_http://tom.imm.uran.ru/~u1318/djvu/

И еще майские 2004 г. ссылки:

_http://yusoft.kulichki.net/russian/doc/AboutDjVu.htm
_http://yusoft.kulichki.net/russian/doc/DjVu_Solo_FAQ.htm
_http://yusoft.kulichki.net/russian/doc/Make_DjVu_Book.htm
Записан
tpkn
Гость
« Ответ #26 : 09-05-2004 22:06 » 

(ссылки непрямые, подчерк убрать надо)
Записан
tpkn
Гость
« Ответ #27 : 09-05-2004 22:27 » 

У меня опыт в основном до djvu был с tiff group 4 compressed (fax'овый формат). Ну очень хорошо работает в электронных книгах. Не очень сильно отличается от djvu по объему файлов - не более 2-х раз максимум. Если нужно создавать электронные книги из бумажных путем сканирования, то очень советую. Поэтому у меня вопрос: Если мутота с djvu кому-то надоест,  давайте сделаем графическую оболочку (вьюер) для книг, в которую можно любую книгу вставить будет. Гулять по книге (том, часть, глава, параграф, подпараграф) можно по файлу навигации в HTML, щелкая по сноске и попадая на нужный графический файл-страницу книги: 1 скан= 2 страницы. Куда же проще. Можно конечно любым вьюером книгу смотреть-читать, но они чересчур многофункциональны, много лишнего. Нужна именно оболочка под книгу: нажал пробел/бэкспейс - листанье страниц, нажал +/- -  ресайзинг.  Может кто-то захочет взяться на такой проект?
Записан
tpkn
Гость
« Ответ #28 : 23-05-2004 15:23 » 

Если Solo уже платной стала, то есть третья и последняя прога для djvj формата: Djvu Shop -- она предшествовала Solo и тоже бесплатная. От этой же самой фирмы (но искать не на фирменном сайте).

По опыту работы могу еще раз сказать, что формат tiff group 4 compressed практически по объему файлов аналогичный djvu. Кто интересуется переводом бумажных книг в электронные (без распознавания!!!), давайте создадим графическую оболочку для этого формата. tiff хорошо описан и разработан.  Ибо djvu представляется глобально неподъемным практически, как показывает жизнь.
Записан
DAV
Гость
« Ответ #29 : 26-05-2004 10:33 » 

В принципе идея вьювера интересная.
Единственный непонятный мне вопрос - как можно организовать управление такими книгами. Например добавить/переместить/удалить кучу файлов одной книги не очень красиво получается.

P.S.
На данный момент мы отказались от использования djvu.
Записан
Страниц: [1] 2  Все   Вверх
  Печать  
 

Powered by SMF 1.1.21 | SMF © 2015, Simple Machines