Interested Article - DjVu

DjVu (от фр. déjà vu — «уже виденное») — технология представления и хранения документов (книг, журналов, рукописей и подобных, прежде всего сканированных) с использованием сжатия изображений с потерями .

Изначально технология была разработана Яном Лекуном , Леоном Боту и Патриком Хеффнером в AT&T Labs с 1996 по 2001 годы.

Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения загрузки файла. DjVu-файл может содержать текстовый ( OCR ) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовать удобную навигацию в DjVu-книгах.

Используемые технологии

Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, по умолчанию понижается для экономии места. Передний план содержит цветовую информацию о маске; его разрешение обычно понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования , а маска — алгоритмом .

Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.

Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi , средний размер страницы составляет около 15 Кб , то есть приблизительно в 100 раз меньше, чем исходный файл. В присутствии сложного заднего плана выигрыш объёма составляет обычно 4—10 раз. Однако при стандартных настройках в DjVu используется сжатие данных с потерями , поэтому для особо важных документов обычно используются форматы сжатия без потерь : PNG , JPEG 2000 , TIFF и т. п. Например, сжатие без потерь предоставляет утилита CJB2 из пакета DjVuLibre .

В основе формата DjVu лежат несколько технологий, в том числе разработанных в AT&T Labs:

  • алгоритм отделения текста от фона на отсканированном изображении;
  • вейвлетный алгоритм сжатия фона ;
  • алгоритм сжатия чёрно-белых изображений JB2 (похожий на JBIG2 );
  • универсальный алгоритм сжатия (похожий на BZIP2 );
  • алгоритм распаковки «по запросу»;
  • алгоритм «маскировки» изображений.

Текстовое представление изображений DjVu

Формат DjVu предусматривает наличие текстового слоя , который содержит текст со страницы (используется для поиска и лёгкого копирования текста при работе с ним). В случае, если текстовый слой недоступен, единственный метод получения текста — выполнение оптического распознавания в сторонних программах.

Лицензионная информация

В марте 2000 года AT&T продали технологию компании , которая пыталась использовать её в своих коммерческих интересах, но благодаря открытости формата для создания и просмотра документов DjVu существует свободное программное обеспечение , доступное для различных платформ. 1 июля 2008 года передал менеджмент DjVu родительской компании , а 10 июня 2009 года передал права на технологию DjVu компании (ранее Caminova ) .

Существует открытая публикуемая под лицензией GNU GPL библиотека DjVuLibre и программы-кодировщики и просмотрщики на ней.

См. также

Примечания

  1. См. файл readme пакета DjVuLibre -3.5.27.tar.gz
  2. . Разработчики DjVu (июль 2006). Дата обращения: 16 января 2010. 13 июня 2010 года.
  3. — 2003.
  4. от 9 сентября 2017 на Wayback Machine (англ.)
  5. . Дата обращения: 28 мая 2009. 2 мая 2009 года.
  6. . Дата обращения: 4 октября 2008. Архивировано из 28 сентября 2008 года.
  7. . Дата обращения: 25 октября 2014. Архивировано из 5 октября 2014 года.
  8. . Дата обращения: 17 июля 2009. Архивировано из 16 июля 2009 года.

Ссылки

  • Алгоритмы и достоинства, программы и использование, руководства пользователя.
  • Сборник статей о технологии DjVu.
  • Англоязычный портал DjVu-сообщества.
Источник —

Same as DjVu