Сохранение веб-страниц в pdf-файлы

Порой может возникнуть надобность сохранить интернет-страницу на жёсткий диск. Стандартно всё делается просто — через пункт меню «Сохранить как…». На выходе получаем файл html и лежащую рядом почти одноимённую папку, содержащую все файлы страницы. Во многих случаях не слишком удобный «форм-фактор» и гораздо удобнее было бы иметь один файл, соответствующий одному «документу», но содержащий в себе все нужные элементы.
Варианты следующие (совсем маргинальные, вроде копирования вручную содержимого в текстовый процессор и затем сохранения в форматах odt или doc, я рассматривать не буду):

  • mht (mime html) — веб-архив. Вроде как именно для этого создавался. Можно получить, сохраняя страницы в IE и Opera. Для Firefox нужно поставить аддон UnMHT
  • chm (compiled html) — формат гипертекстовой справочной системы, специально разработанный Microsoft для встроенной помощи Windows. На мой взгляд этот вариант хуже — во-первых, создавался он изначально для конкретной задачи и не совсем той, что тут рассматривается, а во-вторых, со средствами сохранения в него ситуация хуже, да и с чтением не всё гладко на линуксах.
  • pdf (portable document format) — хорош кроссплатформенностью и открытостью. Со средствами просмотра всё обстоит прекрасно, насколько знаю, на всех системах. Несолько смущает, что цель у формата тоже несколько другая — прежде всего для электронного представления полиграфической продукции.
    Поддерживает ссылки, поиск по тексту, и в отличии от mht поддерживает структурированное содержание.

Есть ещё какой-то непонятный maff — как я поняла, чисто мозилловский формат и уже умирающий, есть какой-то способ сохранения страниц одним файлом, предоставляемый аддоном для chrome/chromium SingleFile неизвестно какой совместимости и структуры, можно, наверное, как-то сохранять в формат djvu. Но это уже совсем экзотичные и изощрённые способы.
Может быть, есть ещё варианты и даже какой-нибудь гораздо более подходящий, но мне пока видится самым оптимальным решением — сохранение в pdf.

Теперь что касается способов преобразования. Честно говоря, адекватно работающих приложений я не нашла. Есть жуткая утилита htmldoc, но с кириллицей у неё не сложилось, видимо.
Пока единственное решение — он-лайновые конвертеры. Ну и я смотрела не все из них, а лишь те, что предоставляют аддон для браузера, причём для firefox, поскольку в основном им пользуюсь. Поскольку нажать на кнопку удобнее, чем открывать специальный сайт и вставлять там в форму нужную ссылку.
Итак, проверила я следующие дополнения:

  • web2pdf
  • Save as PDF
  • pdfit
  • PrintPDF
  • PDF Download
  • Online Convert

Теперь можно рассмотреть каждый подробнее, описание будет происходить по схеме:

  1. веб-сервис, который производит конвертирование и предоставляет аддон
  2. способы доступа к функционалу из браузера (кнопки, пункты меню)
  3. количество и описание доступных настроек
  4. описание результата

pdfit

  • Предоставляется веб-сервисом touchpdf.com, который позволяет производить и некоторые манипуляции с pdf-файлами.
  • Добавляет дополнительное подменю в контекстное меню и меню Tools. Никаких лишних страниц не открывает, что является большим плюсом.
  • Расширение позволяет сохранять страницы картинками и большинство настроек относится к этому, а для pdf — размер страницы и возможность разделять файл на страницы по вертикали или сохранять одну длинную (как и сама интернет-страница).
  • В результате получаем pdf-файл, который на проверку оказывается картинкой, конвертированной в pdf.

Совершенно бесполезное дополнение в силу исходящего формата — зачем нужен pdf-файл, по которому нельзя произвести поиск и где не работают ссылки, я не знаю. Можно с тем же успехом сохранять скриншот страницы.

Web2PDF (для Chrome)

  • Веб-сервис web2pdfconvert.com. Крайне простой, но есть связанные ресурсы для конвертации других форматов в pdf и обратно.
  • Есть пункт в контекстном меню и можно добавить кнопку на панель. Но, по-моему, смысла в дополнении не очень много — поскольку при нажатии открывается страница сервиса, только с уже вставленным нужным адресом в соответствующей строке.
  • Из настроек только включение-отключение кнопки панели или пункта меню, что можно считать отсутствием настроек практически.
  • В результате получаем документ, автоматически разбитый на страницы и с довольно крупным логотипом сервиса в нижнем правом углу на каждой.

Дополнение пока несовместимо с последней версией Firefox, но, скорее всего его скоро допилят. На сайте ещё можно взять букмарклет.
В целом вариант приемлем, но можно найти без логотипов.

Save as PDF (для Chrome)

  • Сервис pdfcrowd.com, кроме прочего позволяет создавать html-страницы c помощью встроенного WISIWIG-редактора и там же сохранять их в pdf.
  • Добавляет только кнопку на панель, довольно малосимпатичную при том.
  • Настроек довольно много, но все они недоступны при бесплатном использовании.
  • По-умолчанию сохраняет документ, разбитый на страницы в ландшафтной ориентации и с логотипами снизу каждой.

Не вижу смысла платить, когда есть бесплатные инструменты по крайней мере не хуже, а в бесплатном варианте этот сервис убог.

Online Convert

  • Сервис online-convert.com содержит также инстументы конвертирования аудио и видео файлов, картинок, электронных книг и тому подобное (поддерживаемых форматов довольно много).
  • Появится пункт в контекстном меню, точнее раскрывающееся подменю, где нужно выбирать Convert page to Document, после чего откроется страница с вставленным уже нужным адресом и возможностью выбрать формат, в том числе pdf.
  • Настроек нет вообще никаких. На сайте под соответствующей кнопкой хоть и есть ссылка «Change pdf settings», но там тоже пусто.
  • В результате получается документ, разбитый по страницам без всяких логотипов, и, что самое необычное и «вкусное», с готовым содержанием по разделам.

Дополнение пока помечено как «экспериментальное», поэтому установить его можно только зарегестрировавшись и залогинившись на сайте аддонов.
Жаль, что при использовании приходится заходить на сайт сервиса, но сам сервис заслуживает внимания. Ну и только этот конвертер умеет создавать содержание документа автоматически.

PrintPDF

  • Пожалуй, единственное расширение, работающее само по себе, а не использующее какой-либо он-лайновый конвертер. Вообще-то данный функционал есть изначально в браузере
  • Можно только добавить кнопку на панель — видимо, в ней вся соль.
  • В настройках только возможность включать и отключать фоновые цвета, фоновые картинки и колонтитулы на страницах (и опять же всё это есть и без аддона).
  • В итоге выходит файл, разбитый на страницы, но с неработающими ссылками.

В принципе, если ссылки не нужны, а лишь текст — то вполне себе решение. Ещё раз повторю — можно не ставить дополнений, а просто использовать меню «Печать» — там есть возможность печати в документ (ps или pdf) и настроек даже побольше (можно, например, менять колонтитулы).

PDF Download

  • Онлайн-сервис pdfdownload.org от создателей программы для работы с pdf — Nitro PDF Professional (платной).
  • Кнопка с подменю на панели, пункт в контекстном меню, а из меню Tools можно открыть настройки.
  • Настроек довольно много, но из основных — переключение между портретной и ландшафтной ориентацией страницы, настройка полей, а также возможность указать адрес электронной почты, куда будут приходить сконвертированные документы.
  • Результат нормальный, без логотипов, но формируется ужасно долго, а некоторые длинные страницы, мне кажется, он и не переварит, ну или ждать придётся часами.

Всё хорошо, но есть сервисы с тем же результатом, но при этом работающие быстрее.

Сначала мне показалось, что лучший вариант — это pdfit, пока я не заметила, что результат-то — картинка, что меня абсолютно не устраивает. Почему-то сначала казалось, что сохраняется нормальный документ.
Ну и в итоге, выходит, что самое лучшее из найденного — Online Convert, не смотря на открытие страницы сервиса. Зато помимо создания аккуратного pdf-документа с работающими ссылками и без логотипов, там ещё и автоматически созданное содержание.
Напоследок замечу, что помимо упомянутых тут аналогов подобных аддонов для Chrome, для него существует ещё пара-тройка своих аддонов, а также существует ещё несколько он-лайн сервисов, не предоставляющих дополнения для браузеров. Но если дойдут руки, будет уже отдельная тема.
И небольшая статистика по размерам получающихся файлов: одна и та же страничка, имеющая размер около 400 Кб (если её сохранить традиционно со всеми файлами), в mht получилась весящей 560 Кб (использовался аддон для firefox). А файлы pdf имели разные размеры в зависимости от используемого дополнения: PrintPdf — 540 Кб, Save as PDF — 470 Кб, web2pdf — 350 Кб, Online Convert — 330 Кб, pdfit — 8 Мб (ну это вообще картинка, напомню), а PDF Download — неизвестно (очень долго шуршало, я не дожадалась). Хотя, это конечно не точные показатели, но принять во внимание можно.

Добавить комментарий