Чем отличаются форматы электронных книг и какой формат предпочесть. Какие форматы книг подходят для Android-устройств Какой формат для чтения лучше

FBReader – свободное приложение с открытым кодом, поэтому он понимает только открытые форматы. Это значит, что если у вас есть книга, защищённая DRM (попросту говоря, зашифрованная производителем), то FBReader её открыть не сможет.

  • ePub . Мы рассматриваем ePub как один из трёх основных форматов. (два других – fb2 и mobi .) FBReader обрабатывает все основные возможности ePub, кроме таблиц. Форматирование CSS поддерживается частично.
  • ePub 3 . FBReader не поддерживает почти никаких новых возможностей ePub 3. Мы будем постепенно добавлять наиболее распространённые из них, но весь стандарт ePub 3 слишком велик и мы не планируем в обозримом будущем поддержать его целиком.
  • fb2 . С практической точки зрения, формат 2.0 поддерживается полностью. В версии 2.1 появились таблицы, FBReader их не понимает. С другой стороны, насколько нам известно, реальных книг в fb2 2.1 не существует.
  • Mobi (книги Kindle, azw3) . FBReader открывает незашифрованные книги *.mobi files. Для зашифрованных книг вы можете поискать в сети информацию о том, как превратить их в незашифрованные. Мы не уверены в законности такого превращения.
  • PDF
    • Android: начиная с версии 2.0, FBReader открывает книги в формате PDF с помощью
    • На других платформах PDF в настоящий момент не поддерживается.
  • DjVu
    • Android: начиная с версии 2.1, FBReader открывает книги в формате DjVu с помощью дополнительного модуля (плагина) . Для отрисовки используется сторонняя библиотека, так что внешний вид несколько отличается от внешнего вида книг, открытых основной программой.
    • На других платформах DjVu в настоящий момент не поддерживается.
  • HTML . Строго говоря, это не формат электронных книг. FBReader не претендует на использование в качестве веб-браузера, но поддерживает некоторое минимальное подмножество HTML, позволяющее читать большинство из встреченных нами книг.гд>
  • Текстовые файлы . Поддерживается. Могут быть проблемы с разбиением текста на абзацы.
  • rtf , doc (Microsoft Word) . FBReader открывает относительно простые файлы *.rtf и *.doc. Для чтения художественных книг этого обычно хватает.
  • Plucker
    • На других платформах поддерживается, однако команды форматирование в plucker предназначены для экранов определённых разрешений, так что результат смотрится не всегда хорошо на современных устройствах.
  • CHM
    • Android: в настоящий момент не поддерживается.
    • Другие платформы. Полного открытого описания этого формата не существует, разные open-source библиотеки поддерживают разные наборы возможностей. Поддержка chm в FBReader написана независимо от стандартных библиотек вроде chmlib, так что отображение может отличаться довольно сильно.
  • .LIT . Формат не поддерживается и не будет поддерживаться. Microsoft Reader больше не существует, так что новых книг в формате.LIT не будет. Мы не хотим тратить силы на поддержку устаревших форматов. В то же время, легальность чтения таких файлов сторонними программами остаётся под вопросом, и у нас нет желания обсуждать её с юристами Microsoft. Вы можете воспользоваться программой

Коротко о главном
Если вы хотите составить себе адекватное представление о epub, представьте, что вы сохранили на диск какую-нибудь (например, эту) веб-страницу вместе с используемой на ней графикой и стилями. Для всех современных браузеров это стандартная функция, например в FireFox это делается через меню «Файл → Сохранить как → Веб-страница полностью». Можно сохранить рядом не одну, а несколько страниц. Затем вы кладете рядом с вашими страницами два служебных XML-файла. Один просто метка «это epub» (container.xml), второй содержит перечень всех файлов - .html, .css, .jpg, etc (обычно это файл content.opf).
Осталось поместить всё это в zip-архив и сменить ему расширение с.zip на.epub.
Всё.
Книга готова, а вы уже знаете, что такое epub. Это не шутка и не преувеличение - epub это просто архивированный в zip html. Ни больше, ни меньше.

Про формат подробно
Размещение содержимого в epub-архиве

Как мы уже выяснили, epub - это zip-архив с несколькими файлами. Когда вы архивируете файлы ZIP-архиватором и вкладываете в архив XML-файл container.xml, вы говорите прозой создаете файл в формате «Open Container». Несмотря на убийственно-пафосное название этого мероприятия (IDPF стоило знать, что есть ISO-стандарт OPC и не изобретать велосипед), за «Open Container Format» (OCF) вполне можно поставить IDPF «зачот» (почему - выясним ниже).
Помимо файл container.xml (должен лежать в META-INF) epub обязательно содержит еще один служебный файл, где перечислены все прочие файлы, размещенные в архиве, и указан их тип, как правило называется content.opf.
Вся конструкция для знающего человека сильно напоминает java-пакеты вообще и OpenDocument в частности. И в самом, деле IDPF ищет пути объединения с OpenDocument. Не очень понятно, что мешало стартовать с клоном OD, ведь OpenDocument на два года старше OCF, но, видимо, велосипеды - неизбежный удел дилетантов, вовремя доки почитать не удосужились. Вот и xpointer IDPF так же, по всем судя, твердо намерены реизобрести в рамках EPUB3 . Версии к 5-й догадаются использовать стандартизованный w3c формат для ссылок и тоже будут искать пути объединения.

Какие данные хранятся в epub
epub обычно содержит следующую информацию:

  • Мета-данные: название, язык, авторы, etc.
  • Средства навигации: порядок листания для xhtml-файлов и « карта сайта содержание»
  • Собственно текст в виде нескольких xhtml-файлов, которые могут использовать стили css, картинки в jpg, gif и png а так же векторную графику svg и шрифты. Последняя версия epub декларирует поддержку MathML.
  • Помимо этого epub может включать ряд дополнительных узкоспециализированных файлов разметки, PDF-версию книги для печати и т. п. экзотику, реально не используемую, не поддерживаемую читалками и среднему читателю неинтересную.
Мета-информация в epub
Минимальная мета-информация epub включает название, ID документа и язык. Помимо этого можно указать авторов, переводчиков и других участников создания книги, дату публикации/написания, тему книги (в свободной форме), plain-text описание и данные об издательстве.
Ключевая мета-информация хранится в стандартной схеме Doublin Core , немного расширенной. Описание авторов, тематики и всех других полей (за исключением дат и языка) дается в свободной текстовой форме, что, фактически, исключает эффективную автоматическую каталогизацию epub из разных источников.

Средства навигации
epub, как мы помним, может включать множество html-файлов. И файлов будет множество. Не потому, что этого требует IDPF, а потому, что от больших файлов epub-читалки падают и все делают много маленьких. И вот для того, чтобы привычное читателю «пролистывание» работало, создатель epub указывает порядок, в котором файлы следует предъявлять. «При открытии показываем 3.html, когда читатель пролистает его до конца открываем 1.html, затем 8.html. А файл footnotes.html при прямом пролистывании недостижим, туда читатель будет попадать по сноскам», что-то в таком роде. Содержится обычно в файле content.opf.
Еще одно средство навигации внутри книги - содержание. Если присутствует, то, как правило хранится в toc.ncx. Технически это более аналог функции «карта сайта», чем привычного «содержания». Cодержание в бумажной книге (или электронном документе) повторяет структуру текста, а.ncx не связан с общим порядком следования текстовых фрагментов и может прямо им противоречить. Впрочем, в реальности файл как правило используется именно в качестве содержания и оформляется «штатно», повторяя порядок, заданный для листания.
Вообще, повторное хранение и переписывание на разные лады одних и тех же данных - фирменный знак epub. Мета-данные храняться в четырех местах: в описании OPF контейнера container.xml, в описании epub-пакета content.opf, в файле содержания toc.ncx и в html-файлах (в тегах meta). Содержание описывается трижды - «карта книги» из toc.ncx спорит с перечислением фрагментов в content.opf кто из них главнее, а заголовки h1-h6 в html смотрят на все это, и думают о реванше.

Текст книги
Разумеется, в epub присутствуют и собственно html-файлы с текстом книги. Так же в архиве хранятся используемые в тексте элементы - графика, стили, скрипты, шрифты.
Никаких существенных «надстроек» или «ограничений» в отношении html, css и т.п. epub не задает. Берем современный Web-контент, ставший уже даже не «динамическим», а «текучим» (epub декларирует поддержку html5, больше смахивающего на ОС , чем на язык разметки, его и браузеры-то пока поддерживают ограниченно), сохраняем на диск, архивируем - и вуаля, электронная книга готова.
«Дорогой, я сохранила интернет на диск, что дальше?»

История вопроса
Чтобы лучше понять основную силу и основную слабость epub, вернемся на 12 лет назад. В 2000-м году, когда ваш покорный слуга только-только приобщился к электронному чтению (если быть точным, был коварно подсажен на оное небезызвестным the-ebook), в сети уже существовали «Библиотека Мошкова », «Альдебаран », «Литпортал » и бог знает сколько еще мелких библиотек. Довольно много текстов было, в принципе, доступно. В основном именно в виде HTML.
HTML уже тогда давал широчайшие возможности для оформления. Благодаря этому люди, готовившие тексты, создавали иногда подлинные шедевры верстки. Достаточно вспомнить, что абзацы в библиотеке Мошкова были (и сейчас Мошков жжет в таком же роде, по-моему) оформлены миксом из тегов

и
Однако, реально существовавшие читалки (iSilo , Microsoft Reader , Mobipocket , устройства типа REB и т.п.) понимали только ограниченный диалект HTML и еще более ограниченное подмножество CSS. Конечно же, каждая читалка строила «расширения» над форматом, но никто не верстал под конкретную читалку.
В финале, после соединения творческих прорывов создателей текстов, вдохновленных мощью HTML+CSS и ничем не ограниченных в полете своей фантазии, с реальными читалками, на экране пользователя получалась, как правило, ерунда. В лучшем случае книга была неказиста, но читаема. В худшем - текст вообще превращался в месиво.
Моим первым ответом на это стала программа ClearTXT , убирающая из текста «творчество». Однако, достаточно быстро стало ясно, что никакой эвристический анализ не угонится за фантазией создателей html-книг. В итоге все равно приходилось работать руками, больше или меньше.

Проблемы с диалектом были не единственными. Программы-читалки имели не только индивидуальные «выразительные средства» и «языковые предпочтения». Ни одна не читала HTML напрямую (в этом плане мало, что изменилось, кстати, предлагаю поразмышлять - почему). Каждая программа использовала свой, обычно закрытый, метод подготовки и упаковки данных. lit, rb, lrf, chm - каждый создатель читалки и разработчик устройства считал своим долгом «изобрести» новый закрытый «формат» и своё, личное, DRM-решение. Средства для конвертации в этот закрытый формат часто были либо недоступны, либо выпускались в виде приложений и/или библиотек под конкретную платформу, с ограниченной документацией или вовсе без нее.

Две проблемы в 2000-м, одна проблема в 2012
Итак, в 2000-м году взять произвольный html и скормить его читалке нам мешали две вещи:

  1. Необходимость использовать громоздкие сторонние средства для упаковки HTML в понятный читалке формат
  2. Несовместимость читалки с используемой разметкой и стилями
epub предлагает решения для обеих проблем:
  1. Средства упаковки стандартизированы и технологичны - можно даже вручную, минут за 20, собрать весьма сложную книгу используя OCF, notepad и zip-архиватор.
  2. Как мы уже видели, epub совместим со всеми и всяческими диалектами, стилями и методами разметки. Сохраняй из web, архивируй и читай.
Казалось бы, все хорошо.
И по поводу упаковки к epub претензий, помимо эстетических, нет. Используется, пусть нестандартное и не самое удачное, но адекватное задаче решение, к тому же простое, как палка.
А вот относительно отображения текста в читалках нас ждут плохие новости. Сам «формат» совместим со всем и всяческим HTML, это да. Куда как просто было написать в стандарте «см. спецификацию html». Соблазн был велик и IDPF не устоял. Но вот мы открываем наш «какой угодно» HTML в «какой угодно читалке» и...
И обнаруживаем, что мы ни на йоту не сдвинулись относительно 2000-го года. Как и в конце прошлого века, каждая конкретная читалка понимает только свой, ограниченный, диалект html+css. Как и в прошлом веке, диалект обычно недокументирован. По-прежнему в каждой читалке для решения даже таких стандартных проблем, как сноски, вводятся свои, ни с чем не совместимые, расширения (поищите epub footnotes в google , методики создания, помимо превращения сносок в ссылки, варьируют от совершенно кислотного CSS до javascript). Простейшие вещи сделать практически невозможно, сложные вещи либо не работают, либо роняют читалки.

Вот вам домашнее задание: не подглядывая в epub от ЛитРес, сделайте epub с пустой строкой между двумя абзацами (текст, пустая строка, снова текст, как перед этим абзацем), одинаково отображаемый в iBooks , ADE , Sony и Nook . Китайские чудо-читалки и прочую экзотику оставим в стороне, чтобы задача оставалась выполнимой. И даже выравнивания по ширине и переносов со сносками не попросим. Просто пустая строка, тег в fb2. Время пошло.

Вердикт по делу epub
Явные плюсы формата - простота и технологичность zip-пакета, открытость.
Так же как плюс можно рассматривать единое DRM-решение. IDPF стыдливо делает вид, что DRM в epub типа открыт и типа любой может сделать свой. Все типа верят. И ясно понимают, что epub существует на 99% благодаря тому, что Adobe поддерживает для него DRM-инфраструктуру. DRM-зло, но один DRM на всех это меньшее зло, чем по DRM на магазин.
Да, глупо, когда архивированный HTML с взламываемым за одну минуту DRM выдается за невесть какую инновацию. Но zip и прочая стандартизация это какой ни на есть, а прогресс.
Касаемо плюсов это все.

А вот в области создания сложной разметки epub совсем никуда не годится и дальше будут только минусы. Формат не дает создателю книги ни гарантий относительно того, что увидит конечный читатель на экране, ни надежных средств контроля, которые позволят отсечь хотя бы заведомо «нерабочие» варианты, ни готовых решений для стандартных задач. Мой первый epub, только что прошедший валидацию, уронил две читалки из трех, на которых я его тестировал (слишком большой html - 2Мб, и слишком много ссылок, как я потом установил). Создатели документов вынуждены либо игнорировать «фичи» отдельных epub-читалок, либо предлагать несколько epub, чтобы читатель мог взять файл, совместимый именно с его устройством. Ради такого финала и огород городить не стоило - что толку верстать html5 зная, что читать его будут в IE3?

Чего нам ждать от epub в будущем
Наиболее благоприятный для epub сценарий - вытеснение из ниши программ-читалок мелких разработчиков несколькими крупным игроками. Сделать полнофункциональный html5-парсер с постраничной разбивкой как минимум не проще, чем сделать современный браузер, а отдача несопоставимо меньше, и случайных людей тут не будет. Однако ни google, ни Мicrosoft, ни Opera пока что не бегут делать новые движки epub-читалок чтобы Adobe мог как следует поднять бабла на своем чудо-DRM. И сама Adobe вполне ясно свой потенциал по развитию ридеров показала - ADE до сих пор не имеет ни поддержки сносок, ни нормально типографики, ни переносов.
Так что гораздо вероятнее, что лет за пять вокруг epub сформируется некий «неписанный IDPF» неформальный свод правил верстки, рабочих решений по оформлению, опробованных на ведущих читалках «хаков» и «фокусов». Сетевое сообщество уже формирует «истинный» epub-стандарт поверх всепрощающего «html5+css3+все_чего_хочется_еще». Описываются реальные решения для реальных проблем в реальных ридерах. Потом эти «фокусы», будучи стандартом де-факто, станут обязательными и для разработчиков новых читалок. Те, кто в IT достаточно давно, чтобы успеть наглотаться дыма браузерных войн и поработать с IE4, NN4 и Opera 3, отлично представляют себе, что именно нас ждет - по этим граблям сетевое сообщество уже ходило и икается эта прогулка до сих пор. Поэтому когда я вижу «этот epub оптимизирован под iBooks» я испытываю не просто де-жа-вю, а острый рвотный рефлекс.

И вот за то, что нас пытаются выпихнуть «назад в 90-е» я ставлю epub незачет. Нам не нужны хаки, становящиеся неработоспособными в новой версии софта. Нам не нужны неписанные правила, по крупицам отлавливаемые методом тыка. Не нужны узаконенные баги. Не нужна «валидация тестированием» по всем читалкам - «покажет или не покажет». Всё это мы проходили.
Нам нужна надежная и удобная технология, четкий стандарт и рабочие средства контроля качества. И epub этого нам дать не смог, к сожалению.

Чего от epub ждать бесполезно
Среди недостатков epub есть и еще один, который мы пока не затрагивали - принципиальная несовместимость с другими форматами. epub рожден быть монополистом. Извлечение данных из epub и конвертация в другой формат даже для нехитрого html является непростой задачей. Когда же epub заматереет, обрастет хаками под устройства и замысловатыми решениями, типа подстраничных сносок на CSS, извлечь из него что-либо будет задачей практически неразрешимой. Какой бы формат Adobe не разрабатывала, получается PDF - вход рубль, а выход пять.
А ведь нам все еще нужна поддержка разных (в т.ч. старых) читалок и устройств. Нужна полноценная поддержка альтернативных форматов, которые уже приобрели вес (mobipocket на Kindle) и будут еще появляться на рынке.

В добавок нам нужны средства каталогизации, обмена цитатами и заметками и прочая и прочая, чего epub даже на декларативном уровне пока что не обещает. Иными словами, нам нужен fb3, которому и будет посвящена следующая статья.

Распространённые форматы электронных книг

TXT - формат обычных текстовых документов. Данный формат поддерживается всеми электронными книгами. В TXT формате отсутствует какое-либо форматирование текста. Также в документах этого формата не может быть изображений и графики.
Не рекомендуется выбирать данный формат из-за отсутствия в нём графики и форматирования текста.

FB2 - формат был разработан для российский пользователей и «заточен» под кириллицу. Книги в формате FB2 поддерживают форматирование текста, разбивку по главам, книги могут содержать графику и иллюстрации. Также в данном формате могут быть сохранены такие параметры книги, как название, автор, содержание, жанр, которые считываются электронными ридерами и позволяют пользователю сортировать файлы на устройстве.
Данный формат рекомендуется выбирать для устройств, продающихся в России. Устройства, привезённые из-за границы, скорее всего не откроют файлы данного формата.

EPUB - современный формат, всё больше набирает популярность среди пользователей во всём мире. Также, как и формат FB2, поддерживает форматирование текста, разбивку по главам, книги могут содержать графику и иллюстрации. Данный формат электронных книг применяется в технике Apple.
Данный формат также рекомендуется для выбора.

MOBI - формат электронных книг, используемый в ридерах Kindle. Набирает свою популярность за счёт всё большего появления в России ридеров Kindle. По своим характеристикам формат MOBI похож на FB2 и EPUB.

Данные форматы электронных книг являются самыми распространёнными и поддерживаются практически всеми современными электронными книгами.

Другие форматы электронных книг

RTF - формат электронных документов, изначально разработанный для Windows. Для чтения на ридерах не очень удобен из-за большого размера файла.

HTML или HTM - формат веб-документов. Иногда применяется для электронных книг.
Книги можно открывать веб-браузером на компьютере.

LIT - формат электронных книг, разработанный Microsoft. Имеет достаточное распространение, но у него имеется некоторые проблемы, так как читается он в основном с помощью специального ПО - Microsoft Reader. Чем-то похож на формат PDF, может масштабироваться, поддерживает закладки и аннотации.

LRF - формат электронных книг разработанный компанией Sony для своих ридеров. Формат LRF используется только в ридерах Sony. При необходимости можно воспользоваться конвертером для конвертирования данного формата в любой другой. Популярность формата LRF падает.

MBR - формат электронных книг под названием MobiPocket. Разрабатывается французской компанией с таким же названием. Используют его в большинстве случаев для чтения на коммуникаторах и КПК.

AZW - коммерческий формат электронных книг с защиой от копирования и конвертирования. Используется только в ридерах от компании Amazon Kindle. Amazon следит за книгами на устройствах Kindle и при нарушении авторских прав может массово удалять книги с устройств через интернет.

PDF - формат электронных документов, созданный компанией Adobe. Неудобен для использования на ридера из-за того, что файлы этого формата очень громоздкие, так как рассчитаны под мощности компьютера. Если файл специально не сверстан под экран 6-дюймового ридера, имеющий формат аналогичный бумажному листу размера A6, то читать на нем PDF формата A4 (а большинство PDF-файлов представлены именно в размере стандартного бумажного листа), будет очень неудобно. В PDF можно увеличить только масштаб, но нельзя увеличить размер шрифта, а значит, на экране ридера вы увидите либо очень мелкий текст, либо вообще только фрагмент страницы. Поэтому данный формат не рекомендуется выбирать для чтения электронных книг.

DJVU - формат, разработанный для хранения сканированных документов. Книга в формате DJVU фактически представляет собой набор сканированных страниц. Как правило, имеет низкое качество. Так же, как и PDF, не рекомендуется выбирать для чтения электронных книг.

DOC или DOCX - форматы электронных документов Microsoft Office. Эти форматы поддерживают достаточно много ридеров, но именно для чтения документов, а не книг. Файлы большого объема в этом формате могут быть велики по размеру, и не все ридеры смогут открыть такие «тяжелые» файлы.

Данные форматы электронных книг могут быть открыты на компьютере. Но не все электронные читалки смогут их распознать.

Какой формат выбрать для чтения электронных книг?

Давайте определимся, какой формат лучше использовать для чтения электронных книг!

Если у вас современный ридер, современное устройство для чтения электронных книг, то вероятнее всего вы откроете на нём все перечисленные выше форматы.

Но с точки зрения удобства рекомендуем вам остановить свой выбор на форматах FB2 или EPUB. Форматы FB2 и EPUB, а также MOBI изначально создавались для электронных книг. Они занимают небольшой объём памяти и поддерживаются всеми устройствами для чтения электронных книг.

А какие ещё форматы вы знаете? Пишите в комментариях к статье, а также задавайте свои вопросы.

На удивление, для такой достаточно простой вещи, как электронная книга, придумано огромное количество разных форматов . Порой кажется, что каждый производитель устройств для их чтения считает своим долгом придумать здесь что-то свое. Чем же они отличаются друг от друга, какие ридеры что понимают и что делать, если ваша «читалка» не способна открыть нужный файл – обо всем этом в статье.

КАКИЕ БЫВАЮТ ФОРМАТЫ

AZW
Фирменный формат Amazon , используемый им в своих ридерах семейства Kindle (AZW предположительно расшифровывается как Amazon Word). Основан на стандарте Mobipocket (разработчика которого Amazon приобрела в 2005 г.) и практически полностью его повторяет, за исключением нюансов вроде отсутствия поддержки JavaScript и использования компрессии. Книги в AZW могут быть как с DRM-защитой, так и без нее. Защита привязывает книгу к аккаунту, с которого была совершена покупка, поэтому прочитать ее можно будет на всех устройствах, связанных c ним (всего на одном аккаунте может находиться до шести устройств). Формат AZW поддерживает использование дополнительных файлов, в которых хранятся закладки, цитаты, прогресс чтения и некоторые другие метаданные.

Кроме того, недавно появилась новая версия формата – AZW4, на данный момент используемая только в программных ридерах для Windows и Mac, в будущем его добавят и в ридеры на мобильных платформах. По своей сути это PDF, и Amazon называет его «Print Replica», имея в виду, что это точная копия печатной страницы. Кроме обычной функциональности формата PDF, AZW4 также поддерживает уникальные возможности Kindle – аннотации, синхронизацию чтения между разными устройствами и т.д.

BBeB (.lrf; .lrx)
Broadband eBooks, или BBeB – формат , разработанный Sony для своих ридеров по спецификациям формата Xylog XML. Расширение LRF предназначено для незащищенных документов, LRX – соответственно, для файлов с DRM-защитой. Летом 2010 г. Sony отказалась от применения этого формата в своем онлайновом магазине в пользу ePub, и последняя на данный момент модель ридера, PRS-T1, также не поддерживает формат BBeB.

CHM
Полное название – Microsoft Compiled HTML Help. Проприетарный формат контекстной справки от Microsoft, основанный на HTML. В отличие от последнего, может содержать в одном файле набор страниц и графических изображений. В контексте электронных книг может быть интересен в основном как формат, используемый для хранения какой-либо документации, поскольку обычные книги в нем не распространяются. Разновидностью CHM является формат LIT (сокращение от literature), используемый в ПО Microsoft Reader (поддержка которого, а также использование формата LIT, будет прекращена в августе 2012 г.)

DjVu
Формат предназначен для хранения сканированных документов. Благодаря сложным алгоритмам обработки, разделяющих текст и графику в различные слои с разными методами компрессии, удается достичь небывалой степени сжатия – при сопоставимом с PDF качестве документ в DjVu будет в 10 раз меньше. Это делает DjVu оптимальным вариантом для хранения больших массивов технической документации с графическими иллюстрациями. Стоит отметить, что при наличии в таком файле текстового слоя пользователю будет доступен полноценный поиск по документу. Если же используется только один графический слой, такой вариант формата называется IW44, и некоторые ридеры отдельно указывают его в списке поддерживаемых – хотя на самом деле любое устройство, способное открыть DjVu-документ, не испытает никаких проблем с IW44-файлами.

ePub
Название является сокращением от electronic publication. Открытый формат, разработанный Международным форумом по цифровым публикациям (International Digital Publishing Forum). ePub основан на XHTML и XML с опциональным использованием таблицы стилей CSS. Формат разрабатывался для документов с плавающей версткой, что позволяет адаптировать отображение книг к экранам различных устройств. ePub пришел на смену предыдущему стандарту данной организации — Open eBook. Контейнер ePub является на самом деле Zip-архивом с расширением.epub – в нем находятся тексты в форматах xHTML, HTML или PDF. Также контейнер может содержать файлы с графикой, в том числе векторной, и встроенные шрифты. Последняя на сегодня версия 3.0 призвана устранить недостатки, за которые ePub критиковали ранее – недостаточную приспособленность формата для использования в книгах с фиксированной версткой, отсутствие поддержки математических выражений MathML и ряд других.

На данный момент ePub является наиболее распространенным форматом и поддерживается почти всеми современными ридерами (за исключением разве что Amazon Kindle). Стандарт ePub позволяет включать в файл DRM-защиту, при этом спецификация не ограничивает издателя в ее выборе.

FB2
FB2, или FictionBook version 2, основан на формате XML. По словам разработчика, основными задачами при его создании были полное сохранение структуры документа с возможностью легкого (в идеале – автоматического) преобразования в другие форматы и точное отображение на любом устройстве. Отличием от остальных форматов является именно упор на сохранение структуры, а не внешнего вида – FB2 не определяет, как документ будет отображаться на различных устройствах или выводиться на печать, вместо этого применяются специальные элементы для указания различных частей книги, как-то цитаты, эпиграфы, стихи и т.д. Книга в FB2 хранится в одном XML-файле – включенные в нее изображения преобразуются в систему Base64 и вставляются в него с помощью специального тега, что несколько увеличивает размер файла.

Формат разработан в России, неудивительно поэтому, что особую популярность он заслужил именно в русскоязычной среде – его поддержка присутствует у всех ридеров локальных брендов, кроме того, ряд онлайновых библиотек и магазинов Рунета предлагают книги в FB2.

В конце 2008 г. появилась первая информация о разработке следующей версии формата, FictionBook 3.0, однако дальше его описания дело, похоже, так и не пошло, хотя возможности выглядели достаточно перспективно (использование стандарта Open Packaging Convention, контейнер в виде Zip-архива с отдельными файлами для текста, изображения и метаданных и т.д.).

KF8
Новый формат электронных книг, разработанный Amazon для своего планшета Kindle Fire (аббревиатура расшифровывается незамысловато – Kindle Format 8). KF8 основан на ePub, использует базу данных Palm (при этом база MOBI в файле также присутствует для сохранения обратной совместимости) и фирменную DRM-защиту. Преимуществом KF8 является расширенная функциональность – так, он поддерживает HTML5-теги, элементы CSS3, встроенные шрифты (спасибо ePub), систему всплывающего текста и ряд других возможностей. Сам Amazon заявляет, что KF8 пришел на смену Mobi – это позволяет предположить, что перевод на данный формат и традиционных ридеров на электронной бумаге Kindle лишь дело времени.

MOBI
Формат, используемый в бесплатном ПО MobiPocket Reader (доступен под Windows, а также на мобильных платформах: BlackBerry, PalmOS, Symbian и Windows Mobile). Основным «потребителем» книг в формате MOBI является семейство ридеров Amazon Kindle, у которых это, по сути, единственный неродной поддерживаемый формат. Книги в MOBI могут быть с расширениями.mobi и.prc (второе было введено из-за ограничений PalmOS на используемые расширения). Изначально формат MOBI был основан на формате PalmDOC, в который добавили некоторые HTML-теги, впоследствии появилась новая версия, использующая более высокую степень компрессии данных. В последнее время при добавлении новых функций создатель следует стандарту Open eBook. При этом у MOBI есть достаточно большое количество ограничений на форматирование, в первую очередь касательно отступов текста, а также вставленных в текст изображений и таблиц.

PDF
Разработанный Adobe в далеком 1993 г. формат Portable Document Format, или сокращенно PDF, отлично подходит для современных устройств для чтения книг. Изначально формат разрабатывался для печати, поэтому полностью описывает то, как документ должен выглядеть – включая размер бумаги, виды шрифтов (которые могут включаться в состав документа) и т.д. Кроме текста, PDF может содержать векторную и растровую графику, а также метаданные. Именно с помощью PDF пользователи ридеров могут добавлять недостающую в их устройствах функциональность, вроде альтернативных шрифтов, переносов в русском тексте и т.д.

Основная проблема PDF-файлов, не оптимизированных для устройств с маленьким экраном – проблемы с чтением страниц, создававшихся, как правило, под разрешение мониторов (в первую очередь это касается PDF-версий журналов, а также технической литературы). В таком случае пользователю приходится то и дело переключаться с просмотра всей страницы целиком на увеличенный участок. Некоторые ридеры поддерживают функцию reflow, позволяющую менять верстку в зависимости от размера экрана и степени масштабирования, однако работает она, как правило, не лучшим образом.

КАКИЕ ФОРМАТЫ ПОДДЕРЖИВАЮТСЯ РАЗЛИЧНЫМИ РИДЕРАМИ

Поддержка форматов в разных моделях осуществляется по-разному, но основная тенденция такова: как правило, крупные бренды, имеющие к тому же собственный сервис цифровой дистрибуции книг, ограничиваются минимальным джентльменским набором, включающим свой основной формат плюс наиболее популярные документы – PDF, TXT. С их точки зрения, больше пользователю все равно ничего не понадобится, ведь все книги он будет покупать в фирменном магазине. Если же производитель не привязывает свой ридер к какому-то определенному сервису, поддержка форматов у него будет, скорее всего, гораздо более обширная.

Некоторые популярные модели ридеров и список поддерживаемых ими форматов:

Amazon Kindle 4 AZW, MOBI, PDF, PRC, TXT
Barnes & Noble Nook Simple Touch EPUB, PDF
Ergo Book 0604R CHM, EPUB, FB2, HTML, PDB, PDF, RTF, TXT
Impression ImBOOK 0311 EPUB, FB2, HTML, LRC, MOBI, PDF, RTF, TXT, PDB
iRiver Story HD EB07 DJVU, DOC, DOCX, EPUB, FB2, PDF, TXT
Kobo Touch eReader EPUB, HTML, MOBI, PDF, RTF, TXT
lBook eReader V60 CHM, DJVU, DOC, EPUB, FB2, HTML, LIT, MOBI, PDB, PDF, PRC, RTF, TXT
PocketBook Pro 612 CHM, DJVU, DOC, DOCX, EPUB, FB2, HTML, IW44, IW4, MOBI, PDF, PRC, RTF, TCR, TXT
PocketBook 360 Plus CHM, DJVU, DOC, DOCX, EPUB, FB2, HTML, PDF, PRC (mobi), RTF, TCR, TXT
Prestigio PER5162
Qumo Libro II CHM, DJVU, DOC, EPUB, FB2, HTML, MOBI, PDB, PDF, RTF, TXT
Sony Reader Wi-Fi PRS-T1 EPUB, PDF, TXT
Wexler Book E5001 CHM, DJVU, DOC, EPUB, FB2, HTML, PDF, RFT, TXT

ЧЕМ КОНВЕРТИРОВАТЬ КНИГИ

Как видим, форматов много, ридеров тоже, и далеко не все ридеры понимают все или хотя бы бОльшую часть форматов. Что же делать, если у вас появилась книга в формате, с которым ваш ридер незнаком? Воспользоваться конвертером. Их тоже существует достаточное количество, однако безусловным лидером является Calibre , (см. ) – хоть он и позиционируется разработчиком как «ультимативное решение для всех задач, связанных с электронными книгами», в первую очередь это все же именно отличное средство для конвертирования книг в различные форматы.

Иногда кажется, что определиться с форматом дело довольно сложное, их так много и у каждого свои преимущества. Многие авторы задаются вопросом: "Как выбрать формат для электронной книги?" Мы провели свой анализ форматов и выяснили, какой же именно является лучшим форматом для обычных книг. Мы внимательно изучили множество форматов, причем рассматривали их как с точки зрения удобства читателя, так и с точки зрения удобства автора. Давайте немного погрузимся в детали и посмотрим, что повлияло на наш выбор.

Почему ePub - лучший формат?

За время разработки наших сервисов, мы изучили некоторые технические ньюансы, которые влияют на внешний вид и работу с электронной книгой.

Начнем с самого простого - управление отображением книги. Т.е. возможностью читателем менять размер шрифта и ориентацию страницы. EPUB прекрасно адаптируется к изменению размера экрана устройства или размера шрифта. Хочется отметить, что в спецификации указано, что на самом деле формат поддерживает 2 режима верстки - первый (reflowable), когда можно менять эти параметры, и второй (fixed-layout), когда можно четко указать, что где находится.

Рассмотрим режимы верстки несколько подробнее.

Разметка Reflowable

На русский язык можно перевести как текучая , адаптивная или плавающая. Позволяет подогнать содержимое книги к экрану устройства, изменять цвет и размер шрифта. Идеально подходит для обычных книг с простым текстом - романов, стихотворений, технической литературы. Т.е. всего, где не требуется четкая привязка изображений или сложное визуальное представление.

Данная разметка не подойдет для визуальных интерактивных книг и детских книг со множеством иллюстраций, то есть тех, где требуется пространственная привязка графики, разного рода комбинация картинок и врезок. Сам по себе формат EPUB позволяет создавать интерактивные книги, но адаптивный дизайн таких книг - это настоящее искусство.

Так выглядит адаптивная разметка

Использование этой разметки идеально в случае, когда вы точно не знаете, где и как будет вопроизведена ваша книга. Из-за гибкости разметки, книга будет корректно отображена практически на любом устройстве, начиная от компьютера и заканчивая какими-нибудь умными часами. Плюс данная разметка отлично подойдет для людей с ограниченными возможностями.

Фиксированная разметка - fixed-layout

Данный вид разметки подразумевает, что все элементы имеют четко закрепленное положение на странице с четко указанным размером. Эта разметка имеет формат, который более всего близок к физическому носителю, например странице обычной бумажной книги. Все на своих местах и никакой адаптации. На устройствах адаптация чаще всего выглядит ввиде масштабирования со всеми из этого вытекающими последствиями. То, что выглядит приемлемо на экране компьютера уже мелковато на планшете, а на экране смартфона вообще не разглядеть. Ну а игра с увеличением и уменьшением масштаба превращается в пытку читателя.

Пример отображения фиксированной разметки

Этот формат подходит в том случае, когда вы точно знаете, что ваше произведение будут читать на носителе с конкретным размером, под который и будет сверстано ваше произведение. Изначально предполагается, что данная разметка разработана для дальнейшей печати произведения, поэтому в ней указываются размеры и формат будущего носителя. Мы не рекомендуем использовать данную разметку для электронных книг, так она ограничивает область чтения книг устройствами с определенным размером экрана.

Самый распространный цифровой представитель этой разметки - формат PDF, но и EPUB тоже ее поддерживает.

Мы решили свести популярные форматы в таблицу и показать поддержку различной разметки внутри них

С версткой разобрались. Теперь один рассмотрим самый волнующий авторов момент - авторское право.

Поддержка защиты авторских прав на уровне форматов электронных книг

Как правило авторы настаивают на поддержке DRM (Digital Rights Management) или технических средств защиты авторских прав в электронных книгах. Это одна из самых неприятных тем, как для авторов, так и для читателей, но затрагивает и интересы издателей тоже. И основная проблема заключается в том, что нет надежного способа защиты от копирования, т.к. книга представляет собой источник преимущественно текстовой информации представленной в графической форме. Можно создать исключительно надежный способ доставки контента путем зашифрованной передачи файла в специальное отдельное приложение или даже специальное отдельное устройство для чтения книг, но это все будет обойдено простым фотоаппаратом с последующим распознаванием текста. Так что все самые сложные и неприятные для всех процедуры будет нивелированы самым примитивным способом копирования, которому уже больше двух веков. Все то, что видит глаз человека, это все увидит и камера. А дальше дело техники.

Итак, как обстоит дело с поддержкой DRM в различных форматах. Мы собрали информацию и поместили в таблицу

Из таблицы видно, что ePub, PDF и Mobipocket являются форматами, отлично поддерживающими защиту авторских прав.

Однако, как мы отметили выше, ничего, кроме неудобств для пользователя DRM больше не создает. Многие были в ситуации, когда срочно нужна книга, но ее нет в формате доступном для твоего устройства. Как правило, такая ситуация частенько застает человека врасплох или в самый неподходящий момент. Обычно люди решают это разными путями, в большинстве случаев просто ищут другую книгу на эту же тему, но уже в доступном формате. Как результат, автор теряет читателей и, разумеется, деньги.

Основная проблема защиты области прав лежит в области воспитания людей и их отношения к защите авторских прав. Например, ведь никому не приходит в голову красть напрямую из магазина, хотя все лежит, только протяни руку. Аналогично и с цифровым контентом. Просто происходит осознание того, что произведение принадлежит автору и это результат его труда, который должен быть оплачен. Чем больше людей осознает это, тем меньше книг будет украдено.

Предоставление легального доступа к книгам одна из миссий нашей библиотеки.

Резюмируя вышесказанное мы снова приходим к выводу, что ePub отличный выбор и с точки защиты авторских прав.

Что не так с форматом EXE?

Наверняка многие слышали про такой формат. Этот формат называется - приложение для операционной системы Windows. Все верно, это не формат электронных книг, это обычная программа для Windows, которую нужно устанавливать и которая работает только на очень ограниченном круге устройств - компьютерах и планшетах с Windows. Открыть такую "книгу" на iPad, Kindle, Nook и планшете с Android не получится не говоря уже о других системах таких как OS X или Linux. Более того, т.к. формат является исполняемым файлом, то к нему очень часто цепляются вирусы, что делает его исключительно небезопасным. Вот так просто, скачал книгу в exe, а получил вирус. Злоумышленники часто выкладывают вирусы в духе "Все книги Донцовой.exe", но вместо книг люди получают пачку вирусов.


Существует аналогичный формат, называемый JAVA - какое-то время был популярен на старых смартфонах. Суть такая же - программа, но только для смартфона. Аналогичная маскировка вирусов для смартфонов.

О формате FictionBook

Популярен под названием FB2. Популярен преимущественно в России и на постсоветском пространстве, так что можно смело называть его национальным форматом.

Тем не менее данный формат содержит в себе логическую разметку, книга разбита на секции, которые могут быть стихотворениями или прозой. Однако сам по себе формат очень ограничен, т.к. не только нет поддержки сложной верстки и формул, но и банальных вещей вроде маркированных списков.

Существует идея формата FB3, усовершенствованного FB2, судя по описанию являющегося клоном формата ePub. В нем используется аналогичный zip-архив и разделение файлов на описание, текст и картинки. Дмитрий Грибов интенсивно работает над новым форматом и мы надеемся, что он порадует авторов новыми возможностями.

Данный формат хорошо подойдет для простой художественной литературы, написанной на русском языке.

О формате TXT

О формате MOBI

Формат MOBI имеет несколько разновидностей в виде семейства форматов AZW, отличающихся более высокой степенью сжатия данных.

  • AZW1 - другое имя для формата "топаз" (также называется.tpz). Эта разновидность предназначена для хранения отсканированных документов и похожа на DJVU. Формат TPZ - используется в сети WhisperNet. WhisperNet - это специальная сотовая 3G сеть, которая создана компанией Amazon для поддержки книг Kindle и синхронизации книг, закладок и т. д.
  • AZW3 - другое название для KF8. Этот формат впервые появился для Kindle Fire. Представляет собой скомбинированный формат ePub с базой данных Palm, DRM-защитой Amazon, практически копируя все возможности формата ePub и обеспечивая совместимость со старыми читалками Kindle.
  • AZW4 - специальный формат для учебников (аналогичен PDF).
  • AZK - это специальная версия формата MOBI под iOS для Kindle Reader и других продуктов Apple.
  • KFX - один из относительно новых форматов от Амазон, который появился одновременно с Kindle Paperwhite 3. Является наследником AZK. В него были добавлены такие возможности, как воспроизведение звуков и видео, отображение таблиц на отдельном экране, добавлен новый шрифт и формат изображений JXR.
  • AZW8 является расширением для KFX, который является еще одним специальным форматом в настоящее время на Kindle paperwhite 3, Kindle Oasis и Kindle Voyage. На текущий момент это самый продвинутый формат и используется в современных устройствах от Amazon.

О формате PDF

О формате DJVU

DJVU - формат Lizardtech, который все более широко используется для научных публикаций. Основное предназначение данного формата - хранение отсканированных изображений, содержащих текст и относительно простую графику. Его основные характеристики заключаются в том, что коэффициент сжатия примерно в 10 раз лучше, чем в формате.pdf при том же качестве. Ничто не сравнится с этим в настоящее время для черно-белого текста и изображений. Скорее всего в нем вы встретите такие журналы как Радио или Моделист-Конструктор, их старые версии практически недоступны в других форматах, потому что большинство старых журналов обычные отсканированные изображения. Для того, чтобы в нем работал поиск, добавляют специальный невидимый слой с текстом, полученный с помощью систем распознавания текста (OCR). Для электронных книг этот формат совершенно непригоден, поскольку его невозможно адаптировать для устройств с маленьким экраном, да и многие читалки его не поддерживают.

О формате DOC, DOCX

Это обычные текстовые документы, созданные в редакторе Word из Microsoft Office. Их можно редактировать, изменять шрифты и оформление. Данный формат поддерживается очень узким списком устройств и программ ввиду очень высокой сложности и закрытости формата, плюс очень часто не может быть корректно отображен. Формат подходит в качестве черновика для книги, но неприемлен для распространения.


О формате EPUB

Единственный официально признанный мировым сообществом (Международным форумом по цифровым публикациям) формат электронных книг. Поддерживает практически все, о чем только можно мечтать: сложное форматирование, списки, таблицы, формулы, сноски, растровые и векторные изображения, различные режимы верстки и DRM защиту авторских прав.

Существует довольно много программ для создания электронных книг в вышеприведенных форматах, мы же разработали специализированное решение именно для авторов.

Редкие и устаревшие форматы

Еще мы хотели бы о рассказать о некоторых редких форматах.

  • ABW - формат файла, используемый AbiWord. Если файл сжат, то это будет формат ZABW.
  • ACSM - формат файла, используемый для обеспечения DRM защиты в Adobe eBooks PDF и ePUB.
  • AEH - формат файла, используемый eBooksWriter.
  • BBeB - собственный формат Sony. Подставки для широкополосного EBook, также известного как LRF из-за расширения файла.
  • CBR / CBZ - Сжатый контейнер для изображений. R означает, что картинки сжаты архиватором RAR, а Z означает, что сжаты через ZIP. Внутренний формат может быть любым из нескольких форматов изображений, а считыватели CBR / CBZ отображают их как несколько страниц книги. Название означает читалка для комиксов, но используется для любых книг, где содержание содержит в основном фотографии.
  • CHM - сжатый HTML, часто используемый для файлов справки Windows. Он стал очень популярным для распространения текстов и других материалов поддержки через Интернет.
  • DNL - формат цифровой веб-книги, используемый автором Desktop.
  • DTB - Digital Talking Books - книги для слепых, слабовидящих, физически неполноценных людей, учащихся с ограниченными возможностями или других читателей с отключенной печатью. DTBook устанавливает спецификации для цифровых говорящих книг (DTB) как часть DAISY.
  • EBA - фирменный формат электронных книг. Специально поддерживается eBook Readers для китайского языка.
  • EBAML же, что и EBA 2.0 - Используется на Dr. Yi Reader и других продуктах Китая.
  • -ER.PDB - формат базы данных Palm для читалки eReader. ER используется для различения этого формата.
  • FUB - формат электронной книги Франклина.
  • GPF - Ganaxa Publishing Format, позволяющий «горячие точки» и встроенный мультимедийный контент.
  • GPX - защищенный документ Ganaxa.
  • IMP - формат электронной книги, используемый eBook Technologies ETI-1 (REB 1200 / Softbook Reader) или ETI-2 (EBookwise-1150 / Gemstar 1150). Некоторые программы конвертируются в него. Он считается форматом для терминалов.
  • -IS.PDB - формат базы данных Palm для читалки ISilo. IS используется, чтобы отличить этот формат.
  • KML - формат электронной книги HieBook.
  • LIT - собственный формат Microsoft для Microsoft Reader.
  • LRC - специальный сопроводительный формат, который должен быть компаньоном для аудиокниг.
  • LRF - также: BBeB book. Собственный формат Sony. Поддерживается Sony Librie и Sony Reader.
  • LRS - также: BBeB Xylog XML. Формат исходного кода для книг BBeB, который скомпилирован в LRF для чтения на устройстве.
  • LRX - защищенный документ BBeB. Sony Librie и Sony Reader используют несовместимые друг с другом форматы.
  • MART - это проприетарный формат, используемый только на веб-сайте Martview для распространения книг, состоящих из изображений.
  • Формат NP - формат загрузки газеты, используемый в NewspaperDirect для их продукта PressDisplay.
  • OEB - формат открытой книги. Формат электронной книги, используемый EBookwise-1150, MobiPocket и Microsoft Reader. Этот стандарт является старой версией ePUB.
  • ODT - это открытый стандарт, формат документа, используемый в OpenOffice.org, Star Office и многих других текстовых редакторах.
  • OSIS - это определение XML-схемы для Библии и других библейских текстов исследований.
  • PKG - формат, используемый в Apple Newton.
  • PNPd - Формат, используемый программой eReader. Это популярный формат (также известный как PML).
  • PS - Postscript поддерживается в нескольких программах для чтения, но предназначен для отправки информации на принтер.
  • RB - формат электронной книги для Rocket eBook и Gemstar RCA REB 1100.
  • RTF - Rich Text Format - это формат обмена документами, поддерживаемый некоторыми программами чтения электронных книг, а также многими приложениями обработки Word, включая MS Word и OpenOffice. Это предпочтительный формат для многих пользователей, которые создают свой собственный контент для Sony Reader.
  • SGF - собственный формат для Sigil, прямого редактора для ePUB. (Больше не используется)
  • STK - собственный формат STAReBOOK.
  • TCR - электронная книга для EPOC.
  • TeBR - специальный формат для крошечной электронной книги от Fictionwise.
  • TR - формат Tome Raider. Их последний формат называется TR3. Tome Raider - это формат электронных книг, который поддерживает очень большие книги, такие как справочники, энциклопедии и словари.
  • VBK - формат электронной книги от VitalSource, поддерживающий графическую поддержку. Этот формат обычно используется в учебниках.
  • XEB - формат, используемый электронными книгами Apbi в основном на китайском языке.
  • XDXF - формат обмена словарями на основе XML.
  • WOLF - Собственный формат, используемый HanLin eBook в своих электронных книгах V2B, V3 и V8. Обычно используется расширение.wol. Также используется JCNIP на их читаталке Dr.Yi.
  • ZTXT - формат, используемый WeaselReader на устройствах Palm. Имеет расширение.pdb.
  • ZNO - проприетарный формат электронных журналов подписки Zinio. Эти журналы включают мультимедийные материалы, такие как фотографии и видео. Ходят слухи, что формат основан на DJVU.

Пожалуй мы покончим с экзотикой на этом месте. Спасибо за внимание!

Присоединяйтесь к нам, чтобы получать новые статьи и узнавать о выходе в свет книг на нашей платформе.