Статистика |
---|
Онлайн всего: 8 Гостей: 8 Пользователей: 0 |
|
Главная » 2010 » Июль » 23 » Форматы Е-книг
|
Это приводит к сильным потерям в качестве изображения при попытках улучшить качество неоптимально сделанного растрового PDF файла.Форматы DJVU и PDF
Формат DJVU позволяет сжимать растровое изображение несколько лучше, чем PDF, просматривается быстрее, а также более удобен в технической обработке. Например, есть простые и бесплатные программные средства для редактирования гиперлинков, закладок и OCR-слоя в DJVU, но таких средств нет для PDF. Также, файлы DJVU более устойчивы к сбоям, чем PDF, и менее зависимы от версии просмотрщика, поскольку формат DJVU гораздо проще. Недостаток DJVU: возможность внести искажения при сильном сжатии и большое количество разных режимов сжатия приводят к тому, что сделать некачественный файл начинающему пользователю довольно легко. Также, DJVU файлы (по теперешнему стандарту) позволяют делать гиперлинки на другую страницу того же документа, но не на другой файл, не на сайт интернета, и не на выбранное место на данной странице (это можно делать в PDF). Однако формат DJVU несложен, документирован и содержит гибкий механизм добавления метаинформации: к каждой странице можно добавлять произвольную информацию в виде нескольких пар key=value. Поэтому в принципе можно сделать всё это и многое другое (например проверку md5sum или криптографическую подпись) средствами формата DJVU.
Главное достоинство формата PDF — широкая совместимость (у всех есть бесплатный Acrobat Reader) и тот факт, что большинство людей пока ничего не знают о формате DJVU. Однако, надо заметить, что программы для просмотра DJVU тоже бесплатные и требуют гораздо меньших ресурсов компьютера, чем Acrobat Reader. Недостатки PDF в основном технические, но они существенны. Главный недостаток — невозможность определить разрешение растра, находящегося внутри PDF. Это приводит к сильным потерям в качестве изображения при попытках улучшить качество неоптимально сделанного растрового PDF файла. Неоптимальные PDF файлы могут иметь размеры 100—200 КБ на страницу и даже более. Оптимальный растровый PDF тратит от 10 до 20 КБ на страницу, что примерно на 30—50% больше, чем DJVU. Другие недостатки формата PDF — невозможность эффективно редактировать файлы и чувствительность к сбоям при передаче файлов. Сбойный файл часто невозможно просмотреть даже частично. К техническим недостаткам формата PDF относится и то, что иногда не получается произвести оптимизацию размера файла, которая в принципе была бы возможна, если бы формат PDF был лучше спроектирован.
PDF-книга - своими руками http://www.rusdoc.ru
Проиллюстрируем соотношение размеров PDF и DJVU файлов. Перевод в формат DJVU типичной отсканированной издательством статьи из журнала Physical Review (у них высокое разрешение и хорошее качество сканирования) уменьшает размер издательского PDF файла в 10 раз. Во многих случаях перевод из векторного PDF в DJVU, даже с высоким качеством изображения и сохранением текста и навигации, всё равно даёт файл DJVU меньшего размера, чем исходный PDF. Это очень часто относится к файлам, созданным такими программами, как Quark Express, Acrobat Distiller (но не к файлам, созданным с помощью Latex/Ghostscript).Обложка
Иногда векторные PDF файлы содержат много формул в виде вставных растров; такие файлы уменьшаются в 3—4 раза при переводе в DJVU. Именно технические достоинства формата DJVU и возможность автоматизированно обрабатывать DJVU файлы привели к широкому использованию формата DJVU среди энтузиастов создания растровых электронных книг, в основном научно-технического характера.
Читаем книги: все о форматах электронных книг. Лучшие программы для чтения книг 19.07.2009 от Red Dragon
Источник: http://www.nestor.minsk.b>ykg Автор статьи: Юзич, miksoft77@mail.ru Форум оспрщиков http://finereader.abbyy.r>uforum/actualforum.aspx Постепенно все больше читающего народа переходит на электронные книги (e-book). Электронные книги компактны, мобильны и просто удобны. Правда, в отличие от бумажных книг, для их чтения необходимо устройство, но при нынешнем изобилии электроники это не является проблемой. Сегодняшний читатель привередлив. Его уже не устроит подслеповатый 14' монитор, на котором в свое время мы читали присланные из ФИДО тексты о том, как размножаются ежики. К его услугам высококачественные ЭЛТ- и ЖК-дисплеи, КПК, смартфоны, специализированные устройства для чтения. Современный софт для чтения текстов предоставляет такие функции, как сглаживание шрифтов, выделение заголовков, позволяет качественно сформатировать текст вплоть до отображения на экране развернутой книги.
Скриншот книги И все же, путь электронных книг к потребителю, в отличие от победного шествия MP3 и DivX, труден и тернист. Для этого имеются объективные причины. Во-первых, до сих пор не существует недорогого, компактного и удобного устройства для чтения. Компьютер - вещь все-таки стационарная. Ноутбуки и Tablet PC - дорогие игрушки. КПК также недешевы, и у большинства из них качество дисплея оставляет желать лучшего. То же самое можно сказать и про смартфоны. А новейшие изделия на e-Ink еще пару лет не выйдут из стадии дорогостоящей диковинки. Во-вторых, опять же, пока, не создано единого универсального формата, устраивающего как издателей, так и читателей.
До недавнего времени под e-book пытались приспособить готовые форматы представления текстовых данных. В-третьих, у большинства читателей слово "книга" ассоциируется исключительно с бумажными томиками. Переломить себя и перейти с "бумаги" на e-book достаточно непросто. Испытано на себе. Но зато потом доходит до того, что, когда читаешь бумажную книгу, непроизвольно пытаешься вызвать функцию поиска или кликнуть по гиперссылке...
Резко увеличить симпатии читателей к e-book без решения первых двух проблем невозможно. Понятно, что вопрос с устройством могут решить только производители электроники, и они успешно работают над этим. Остается проблема формата e-book. Как убедительно доказала история MP3 и DivX, именно массовый формат влечет за собой появление удобных устройств для его просмотра. Вот именно о форматах электронных книг и пойдет разговор. Общие требования к е-book
чтение электронных книг Попробуем сформулировать потребительские требования к электронным книгам: Читабильность. Легкость и удобство чтения текста. Поскольку это обеспечивают программные и аппаратные средства для чтения, от самого формата требуются несколько иные качества, а именно два нижеследующих:
Полиграфичность. Возможность отформатировать текст, выделить заголовки, вставить иллюстрации, содержание и т.д. То есть то, что делает книгу книгой.
Масштабируемость. Возможность читать e-book при разных разрешениях экрана и размерах рабочего окна.
Кроссплатформенность. Электронная книга в идеале должна одинаково легко читаться на различных устройствах - от специализированной лчиталки» до персонального компьютера.
Конвертируемость. Очень важный параметр, учитывая постоянно меняющиеся стандарты, операционные системы и "железо".
Гипертекст. Тоже весьма существенный для e-book параметр. Возможность мгновенно переходить в нужное место книги, щелкнув по ссылке. Возможность редактирования. Не обязательно, но желательно. Учитывая "какчество" текстов в онлайн-библиотеках.
Профессиональный издатель обязательно добавил бы в этот список возможность установки DRM (Digital Rights Management - управление цифровыми правами - говоря проще, защита от несанкционированного копирования), но я, как и большинство наших любителей чтения, считаю этот элемент совершенно излишним. Дай волю издателям, они и на бумажные книги начнут ставить защиту, например, покрывать страницы гильоширной сеткой, чтобы затруднить распознавание текста программой OCR...
Обзор существующих форматов е-book
Очевидно, что снова любой книги - это прежде всего ее текст. Поэтому для создания e-book используются как стандартные форматы представления текстовой информации, так и специализированные.
Обычный текст (plain text) (.TXT)
Как говорится, текст - он и в Африке - текст... Простая последовательность восьмибитных (как правило) кодов, каждый из которых соответствует либо символу, либо управляющему коду. Отличается лишь кодировкой и способом перевода строки. Полиграфичность. Низкая. Набор средств разметки у текста весьма невелик. Форматирование абзацев, отступы и выделение заглавными буквами Ч вот, пожалуй, и все. Масштабируемость. Все зависит, от того, как сформатирован текст. Если он аккуратно отформатирован по абзацам с выравниванием, то очень низкая. Если же разбиения на строки нет - лодин абзац - одна строка» - тогда высокая. Кроссплатформенность. Практически абсолютная. Конвертируемость. Практически абсолютная. Гипертекст. Нет. Возможность редактирования. Абсолютная.
Формат txt активно использовался при создании всевозможных сборников книг ("Библиотека в кармане", "HarryFan Text Collection" и пр.). Сейчас книги в формате txt можно найти, пожалуй, лишь в библиотеке Максима Мошкова (да и то перед подачей их пользователю они преобразуются в HTML) и в некоторых небольших библиотеках.
Rich Text Format (.RTF)
Этот формат был специально разработан компанией Microsoft в 1987 году для переноса текста с разметкой из одной программы в другую. В таком качестве он используется и по сей день. RTF понимают практически все современные текстовые редакторы. Полиграфичность. Выше среднего. Масштабируемость. Почти абсолютная. Кроссплатформенность. Очень высокая. Конвертируемость. Очень высокая. Гипертекст. Нет. Возможность редактирования. Абсолютная.
RTF до сих пор широко используется в онлайн-библиотеках. Главным образом, именно из-за его хорошей совместимости с различным программным обеспечением.
Документ Microsoft Word (.DOC)
Формат DOC - это внутренний, проприетарный формат Microsoft Word и предназначен для хранения текстовых документов, подготовленных в этой программе. Распространенность Microsoft Office и Microsoft Word как его части обусловила распространенность формата DOC. Полиграфичность. Высокая. Масштабируемость. Высокая. Кроссплатформенность. Ниже среднего. Конвертируемость. Высокая. Гипертекст. Присутствует. Возможность редактирования. Абсолютная.
По моему скромному мнению, документы Word используют в качестве e-book по одной причине: авторам книги (или сканеристам) просто лень конвертировать его в более удобочитаемый формат.
Документы HTML (.HTM; .CHM; .MHT)
Язык HTML (HyperText Markup Language) используется для отображения информации в сети Интернет. Полиграфичность. Высокая. Масштабируемость. Очень высокая. Кроссплатформенность. Практически абсолютная. Конвертируемость. Практически абсолютная. Гипертекст. Разумеется, есть. Возможность редактирования. Абсолютная.
Хотя НTML позволяет неплохо оформить текстовый документ, он все же не слишком подходит для e-book. Далеко не всем нравится читать книги в браузере. При использовании же программы-ридера HTML конвертируется в обычный текст и теряет все свои преимущества. А вот формат CHM, первоначально предназначавшийся для подготовки файлов справки к программному обеспечению, - дело иное. Компактность и высокая интерактивность делают его весьма удобным для различных электронных руководств и справочников.
У всех вышеперечисленных форматов есть один существенный недостаток - они ИЗНАЧАЛЬНО НЕ ПРЕДНАЗНАЧАЛИСЬ для создания электронных книг. Созданные на их основе файлы даже не являются книгами - это просто текстовые документы. Но, как ни странно, из этого же недостатка вытекает и достоинство: чтобы читать их, не требуется специального программного обеспечения. Достаточно стандартных средств, встроенных в операционную систему. Форматы, описанные далее, уже требуют установки специальных программ для их просмотра.
Adobe Acrobat (.PDF)
Первоначально этот формат разрабатывался для нужд полиграфии - в основном для платформонезависимого переноса макетов. В последние годы интенсивно продвигается как формат для создания e-book. Полиграфичность. Абсолютная. Для того и был разработан. Как следствие .PDF-файлы могут быть весьма увесистыми. Масштабируемость. Низкая! На портативных устройствах читать достаточно проблематично. Кроссплатформенность. Ниже среднего. Гипертекст. Есть. Возможность редактирования. Низкая. К тому же, для этого нужно устанавливать громоздкий Adobe Acrobat PRO.
Основной аргумент против применения PDF для изготовления e-book - большой объем файла и неудобство чтения на портативных устройствах. Говоря о PDF, нельзя не упомянуть и аналогичные форматы. Например, формат Zinio, который, в отличие от PDF, предназначен специально для выпуска в электронном виде периодических изданий - в частности, глянцевых журналов. DeJaVU (.DJVU)
Формат DJVU был создан компанией АТ&T специально для компактного представления информации в Internet. Формально файлы, созданные с его использованием, трудно назвать книгой. Это, по существу, растровый многостраничный графический файл. При его создании специальные алгоритмы отделяют текст от фона и иллюстраций, после чего они сжимаются с различным разрешением, что и обеспечивает чрезвычайно высокое сжатие картинки (примерно 1:500) при приемлемом качестве изображения. Эти свойства делают его идеальным для множества сканированных компьютерных (и не только) руководств, которыми сейчас завалены варезные сайты (такие книги еще называют "освобожденными" :-)
Ведь если книга содержит примеры исходников программ, формулы, схемы или сложные таблицы, то даже незначительные ошибки при OCR могут непоправимо испортить ее. A DJVU позволяет представить книгу "как есть".
Особенности формата: Полиграфичность. Высокая. Масштабируемость. Средняя. Зависит от того, насколько хорошо программа-просмотрщик поддерживает anti-aliasing. Кроссплатформенность. Средняя. Конвертируемость - Ниже среднего. Гипертекст. Есть подобие. Возможность редактирования. Средняя. Закрытые специализированные форматы
Книги для PocketPC book Существует довольно много форматов электронных книг, созданных для одного конкретного устройства или программы. К ним можно отнести Rocket e-book (.rb), Microsoft Reader (.lit), PalmDoc, MobiPocket (.prc) и т.д. Плюс некоторые программы для чтения норовят сконвертировать текст в свой собственный ни с чем не совместимый формат. (IceBook Professional на PC, iSilo и Weasel на Palm и пр.). Правда, при ближайшем рассмотрении оказывается, что это все те же HTML, RTF или txt (некоторое исключение составляет формат ExeBook, который конвертирует текст книги в набор растровых картинок), как правило, упакованные для компактности и снабженные служебной областью, где могут храниться, например, закладки. Также может быть добавлена DRM.
Полиграфичность. Зависит от конкретного формата. Средняя или выше среднего. Масштабируемость. Средняя или выше среднего. Кроссплатформенность. Низкая. Часто такие форматы создавались для одного конкретного устройства или программы. Просмотр на PC или, соответственно, КПК нередко возможен только с помощью программ, написанных энтузиастами. Конвертируемость. Низкая. Обычно только через софт, опять же, написанный энтузиастами. Гипертекст. Чаще всего есть. Возможность редактирования. Низкая или вообще никакая.
И вот, наконец-то, мы добрались до самого вкусного... Специализированные открытые форматы на основе XML
Расширяемый язык разметки (eXtensible Markup Language) XML предназначен для хранения структурированных данных в текстовом формате. Теоретически файлы XML должны легко читаться как программным обеспечением, так и человеком. В отличие от HTML, набор средств разметки (тегов) в XML не фиксирован и определяется лишь файлом-спецификацией schema (.XSD). Допустимы теги вроде , и т.д. Документы XML имеют иерархическую древовидную структуру.
При помощи XML можно легко создавать новые форматы данных, которые будут простыми, переносимыми и независимыми как от операционной системы, так и от приложения, эти данные создавшего. Но, давая свободу, XML одновременно предъявляет к документу гораздо более жесткие требования, чем HTML. Все элементы должны быть правильно закрыты. Конструкции типа Text, которые легко "проглатывает" HTML, в XML считаются ошибкой. Гибкость в сочетании со строгостью оформления делает возможным использование XML для самых разнообразных задач, а также его обработку практически на любых аппаратных и программных конфигурациях.
Возможности использования XML для создания e-book: Полиграфичность. Высокая. Правда, всецело зависит от программы-ридера. Масштабируемость. Почти абсолютная. Кроссплатформенность. Практически абсолютная. Конвертируемость. Практически абсолютная. Гипертекст. Есть. Возможность редактирования. Как правило, абсолютная.
Как видим, язык XML имеет наилучшее сочетание качеств, необходимых для e-book. Поэтому попытки делать e-book на его основе предпринимались не один раз, и небезуспешно. Известны форматы OEB (Open E-Book), DocBook и другие. Но самым удачным (и самым распространенным) из них является формат FictionBook (FB2). Формат FictionBook 2 - стандарт де-факто в мире e-book
Формат FictionBook был разработан Дмитрием Грибовым с несколькими соавторами при поддержке группы энтузиастов. Он полностью базируется на XML. На данный момент это самый прогрессивный и перспективный формат для электронных книг. Единственный его недостаток, как признают сами авторы, - бОльшие временные затраты при подготовке начального текста. Впрочем, он легко окупается удобством чтения. В отличие от всех не-XML- форматов, которые ориентированы на оформление текстовых данных, в FictionBook упор сделан на структурирование документа. То есть с помощью тегов выделяются области текста: это - глава, это - заголовок, это - эпиграф, а вот это - цитата. А как все это будет выглядеть на экране, зависит от программы-ридера. На случай, если потребуется оформить книгу строго определенным образом, предусмотрена возможность присоединения таблицы стилей.
В формате FictionBook можно создать четко структурированную книгу (именно книгу, а не просто электронный документ), которую удобно читать в специализированной программе-читалке, а в случае надобности можно легко сконвертировать в любой популярный формат. Как правило, без потери разметки. Возможности FictionBook позволяют выделить заголовки, эпиграфы, стихи, цитаты, вставить в текст иллюстрации и сноски и, что немаловажно, внести все выходные данные книги. Все компоненты книги (описание, непосредственно текст, иллюстрации) хранятся в одном файле, который можно упаковать архиватором. Большинство программ-читалок для FB2 умеют напрямую работать с архивами. За прошедшие несколько лет стандарт уже успел устояться. Несмотря на то, что он включает сравнительно немного элементов, в него трудно добавить что-то действительно новое и полезное.
Еще одно достоинство FictionBook - книги в этом формате отлично поддаются каталогизации. Опираясь на встроенную систему описания книги, можно с легкостью создать как домашнюю, так и сетевую электронную библиотеку любого масштаба. Учитывая объем электронных книг, накопленный до появления FictionBook, первый вопрос, который возникает при знакомстве с новым форматом, - это возможность конвертирования книг из других форматов. Никаких проблем!
Разработанные авторами формата и энтузиастами программные средства позволяют эффективно конвертировать книги из форматов txt, HTML, RTF (doc). Если же, наоборот, возникнет необходимость преобразовать книгу в формате FictionBook в другой формат, то лштатный» конвертер FB2Any неплохо справляется с преобразованием FB2 не только в классические txt и RTF, но и в специализированные форматы Roсket Book, iSilo, Microsoft Reader. Таким образом, формат FictionBook обладает всеми качествами, чтобы стать единым стандартом для e-book. И фактически уже стал им. Использование этого формата в русскоязычных онлайн-библиотеках подтвердило его функциональность и жизнеспособность. В нынешнем состоянии формат наиболее подходит для художественной литературы. Что совершенно не мешает использовать его для технических, методических, справочных изданий, а также для периодики.
Всю информацию по формату FictionBook, а также программы для создания, конвертирования, редактирования и чтения книг в формате FB2 можно найти на официальном сайте проекта:fictionbook.org Стоит заглянуть также на сайт разработчика формата Дмитрия Грибова Ч www.gribuser.ru, а также автора FB Tools Михаила Мацнева Ч сайт Чем читать и где взять FB2-книги
Читать книги в формате FictionBook лучше всего в специализированной программе Ч ридере.
HaaliReader (http://haali.cs.msu.ru//pocketpc). Пусть вас не отпугнет спартанский интерфейс программки. Эта читалка изначально разрабатывалась для WinCE (Pocket PC). Очень удобная и функциональная вещь. Хотя она немного устарела и не поддерживает последние инновации формата, но до сих пор считается эталоном. Существует в версиях для Win32 и WinCE (PocketPC). Есть клон для операционных систем Linux.
Cool Reader lib.aldebaran.ru). Постоянно обновляется.
FictionBook.lib fictionbook.ru. Библиотека, созданная специально для FictionBook. Здесь можно найти лучше вычитанные и редкие книги. Очень понравилось то, что при скачивании какой-либо книги интерфейс библиотеки выдает список похожих книг. За то время, пока готовилась эта публикация, на формат FictionBook перешли библиотеки лФензин» (www.fenzin.org) и ЛитПортал (www.litportal.ru). Сервис по продаже электронных книг Publicant.ru также использует FictionBook. Копирайт и доступность. Размышления о будущем.
Технический прогресс в скором будущем, наконец, сможет предоставить нам недорогие и удобные устройства для чтения книг. Но будут ли новые e-book доступными? Отмечу, что сейчас при продаже e-book часто пытаются исходить из цены бумажных книг, начисто игнорируя тот факт, что для изготовления e-book не требуется ни бумага, ни дорогостоящие полиграфические услуги. Впрочем, в легальных e-book самое неприятное - не ЦЕНА, а ЗАЩИТА. Невероятно противно, когда программа-читалка постоянно лазает в Интернет, дабы проверить ваше право читать книгу. Без постоянного доступа к Сети любовно собранная библиотека превращается в мертвый набор файлов. Хотя вообще-то попытки поставить защиту на e-book изначально обречены на провал. Любую книгу, даже с самой навороченной защитой, можно просто переснять с экрана и пропустить через OCR или упаковать в DjVu. К тому же, при соответствующей популярности любой закрытый формат будет обязательно взломан. Это лишь вопрос времени...
А вот будет ли продолжаться та вольница, которая наблюдается сейчас в русскоязычных онлайн-библиотеках? Сейчас в них можно найти все, что мало-мальски могло заинтересовать ретивых сканеристов. Что будет дальше - вопрос несколько спорный. Как писал Сергей Лукьяненко ("Апостолы инструмента", сборник "Гаджет"): "даже в России ситуация не столь печальна, чтобы сетевое воровство и впрямь волновало авторов и издателей. Дело в том, что основная масса читателей все-таки предпочитает держать в руках книгу, а не таращиться в монитор. Как гласит народная мудрость: "компьютер с собой в туалет не потащишь". И пока не появилось по-настоящему дешевой и удобной "электронной книги", воровство файлов особого вреда не наносит. А как только стараниями трудолюбивых китайцев такие книги появятся и станут продаваться в киосках союзпечати, ситуация с электронным пиратством коренным образом изменится."
Свежо предание да верится с трудом, учитывая, что многоуважаемый С.Лукьяненко сам пытался разобраться с держателями онлайн-библиотек, и дальше громогласных угроз дело у него не продвинулось. К чести писателя, потерпев фиаско в борьбе с "пиратами", он решил действовать по-другому. Лукьяненко начал (причем в формате FB2 (!) и через FictionBook.lib (!) продавать свои книги через Интернет. И довольно успешно, по крайней мере, для начала. Например, "Последний Дозор" был продан за три месяца в количестве 850 копий. И это только с FictionBook.lib. К сожалению, дальше все не так радужно. К процессу начали подключаться коммерсанты. Печально известная компания КМ.ru уже провела несколько судебных процессов против свободных библиотек. При этом сама КМ.ru не брезгует пиратством. Таким образом, кроме активизировавшихся авторов и издательств, у онлайн-библиотек появился новый опаснейший враг - платные "стервисы". Именно они способны здорово потеснить поборников свободы информации...
Но, тем не менее, сильно пугаться не стоит. В самом худшем случае "левые" e-book будут вытеснены в файлообменные сети и "пиратские" сборники. Примерно так же, как сейчас обстоит дело с MP3. А борьба с варезными сайтами и файлообменными сетями больше всего напоминает бой Дон Кихота с ветряной мельницей... Безусловно, наличие качественного и недорогого легального продукта - это несомненное благо. Скорее всего, когда технология выпуска и механизм реализации книг будут отработаны, цена станет вполне приемлемой. И, разумеется, гораздо ниже, чем у бумажных книг. А если издатели и потребители найдут компромисс между защитой от несанкционированного копирования и удобством пользования и хранения, то большего и желать будет нечего. И совсем не исключено, что для выпуска легальных электронных книг будет использоваться FB2 или одна из его инкарнаций.
чтения текста в электронном виде (электронных книг) документов в формате:
PDF, RTF, WOLF, HTML, FB2 (XML), RSS, TXT, Djvu, DOC, ePub, PDB, CHM. ещё про форматы книг здесь. В качестве носителя информации используется SD-карточка (SecureDigital).
|
Категория: Новости |
Просмотров: 870 |
Добавил: coment
| Рейтинг: 0.0/0 |
|
|