Порой может возникнуть надобность сохранить интернет-страницу на жёсткий диск. Стандартно всё делается просто — через пункт меню «Сохранить как…». На выходе получаем файл html и лежащую рядом почти одноимённую папку, содержащую все файлы страницы. Во многих случаях не слишком удобный «форм-фактор» и гораздо удобнее было бы иметь один файл, соответствующий одному «документу», но содержащий в себе все нужные элементы.
Варианты следующие (совсем маргинальные, вроде копирования вручную содержимого в текстовый процессор и затем сохранения в форматах odt или doc, я рассматривать не буду):
- mht (mime html) — веб-архив. Вроде как именно для этого создавался. Можно получить, сохраняя страницы в IE и Opera. Для Firefox нужно поставить аддон UnMHT
- chm (compiled html) — формат гипертекстовой справочной системы, специально разработанный Microsoft для встроенной помощи Windows. На мой взгляд этот вариант хуже — во-первых, создавался он изначально для конкретной задачи и не совсем той, что тут рассматривается, а во-вторых, со средствами сохранения в него ситуация хуже, да и с чтением не всё гладко на линуксах.
- pdf (portable document format) — хорош кроссплатформенностью и открытостью. Со средствами просмотра всё обстоит прекрасно, насколько знаю, на всех системах. Несолько смущает, что цель у формата тоже несколько другая — прежде всего для электронного представления полиграфической продукции.
Поддерживает ссылки, поиск по тексту, и в отличии от mht поддерживает структурированное содержание.
Есть ещё какой-то непонятный maff — как я поняла, чисто мозилловский формат и уже умирающий, есть какой-то способ сохранения страниц одним файлом, предоставляемый аддоном для chrome/chromium SingleFile неизвестно какой совместимости и структуры, можно, наверное, как-то сохранять в формат djvu. Но это уже совсем экзотичные и изощрённые способы.
Может быть, есть ещё варианты и даже какой-нибудь гораздо более подходящий, но мне пока видится самым оптимальным решением — сохранение в pdf.
Теперь что касается способов преобразования. Честно говоря, адекватно работающих приложений я не нашла. Есть жуткая утилита htmldoc, но с кириллицей у неё не сложилось, видимо.
Пока единственное решение — он-лайновые конвертеры. Ну и я смотрела не все из них, а лишь те, что предоставляют аддон для браузера, причём для firefox, поскольку в основном им пользуюсь. Поскольку нажать на кнопку удобнее, чем открывать специальный сайт и вставлять там в форму нужную ссылку.
Итак, проверила я следующие дополнения:
- web2pdf
- Save as PDF
- pdfit
- PrintPDF
- PDF Download
- Online Convert
Теперь можно рассмотреть каждый подробнее, описание будет происходить по схеме:
- веб-сервис, который производит конвертирование и предоставляет аддон
- способы доступа к функционалу из браузера (кнопки, пункты меню)
- количество и описание доступных настроек
- описание результата
- Предоставляется веб-сервисом touchpdf.com, который позволяет производить и некоторые манипуляции с pdf-файлами.
- Добавляет дополнительное подменю в контекстное меню и меню Tools. Никаких лишних страниц не открывает, что является большим плюсом.
- Расширение позволяет сохранять страницы картинками и большинство настроек относится к этому, а для pdf — размер страницы и возможность разделять файл на страницы по вертикали или сохранять одну длинную (как и сама интернет-страница).
- В результате получаем pdf-файл, который на проверку оказывается картинкой, конвертированной в pdf.
Совершенно бесполезное дополнение в силу исходящего формата — зачем нужен pdf-файл, по которому нельзя произвести поиск и где не работают ссылки, я не знаю. Можно с тем же успехом сохранять скриншот страницы.
- Веб-сервис web2pdfconvert.com. Крайне простой, но есть связанные ресурсы для конвертации других форматов в pdf и обратно.
- Есть пункт в контекстном меню и можно добавить кнопку на панель. Но, по-моему, смысла в дополнении не очень много — поскольку при нажатии открывается страница сервиса, только с уже вставленным нужным адресом в соответствующей строке.
- Из настроек только включение-отключение кнопки панели или пункта меню, что можно считать отсутствием настроек практически.
- В результате получаем документ, автоматически разбитый на страницы и с довольно крупным логотипом сервиса в нижнем правом углу на каждой.
Дополнение пока несовместимо с последней версией Firefox, но, скорее всего его скоро допилят. На сайте ещё можно взять букмарклет.
В целом вариант приемлем, но можно найти без логотипов.
- Сервис pdfcrowd.com, кроме прочего позволяет создавать html-страницы c помощью встроенного WISIWIG-редактора и там же сохранять их в pdf.
- Добавляет только кнопку на панель, довольно малосимпатичную при том.
- Настроек довольно много, но все они недоступны при бесплатном использовании.
- По-умолчанию сохраняет документ, разбитый на страницы в ландшафтной ориентации и с логотипами снизу каждой.
Не вижу смысла платить, когда есть бесплатные инструменты по крайней мере не хуже, а в бесплатном варианте этот сервис убог.
- Сервис online-convert.com содержит также инстументы конвертирования аудио и видео файлов, картинок, электронных книг и тому подобное (поддерживаемых форматов довольно много).
- Появится пункт в контекстном меню, точнее раскрывающееся подменю, где нужно выбирать Convert page to Document, после чего откроется страница с вставленным уже нужным адресом и возможностью выбрать формат, в том числе pdf.
- Настроек нет вообще никаких. На сайте под соответствующей кнопкой хоть и есть ссылка «Change pdf settings», но там тоже пусто.
- В результате получается документ, разбитый по страницам без всяких логотипов, и, что самое необычное и «вкусное», с готовым содержанием по разделам.
Дополнение пока помечено как «экспериментальное», поэтому установить его можно только зарегестрировавшись и залогинившись на сайте аддонов.
Жаль, что при использовании приходится заходить на сайт сервиса, но сам сервис заслуживает внимания. Ну и только этот конвертер умеет создавать содержание документа автоматически.
- Пожалуй, единственное расширение, работающее само по себе, а не использующее какой-либо он-лайновый конвертер. Вообще-то данный функционал есть изначально в браузере
- Можно только добавить кнопку на панель — видимо, в ней вся соль.
- В настройках только возможность включать и отключать фоновые цвета, фоновые картинки и колонтитулы на страницах (и опять же всё это есть и без аддона).
- В итоге выходит файл, разбитый на страницы, но с неработающими ссылками.
В принципе, если ссылки не нужны, а лишь текст — то вполне себе решение. Ещё раз повторю — можно не ставить дополнений, а просто использовать меню «Печать» — там есть возможность печати в документ (ps или pdf) и настроек даже побольше (можно, например, менять колонтитулы).
- Онлайн-сервис pdfdownload.org от создателей программы для работы с pdf — Nitro PDF Professional (платной).
- Кнопка с подменю на панели, пункт в контекстном меню, а из меню Tools можно открыть настройки.
- Настроек довольно много, но из основных — переключение между портретной и ландшафтной ориентацией страницы, настройка полей, а также возможность указать адрес электронной почты, куда будут приходить сконвертированные документы.
- Результат нормальный, без логотипов, но формируется ужасно долго, а некоторые длинные страницы, мне кажется, он и не переварит, ну или ждать придётся часами.
Всё хорошо, но есть сервисы с тем же результатом, но при этом работающие быстрее.
Сначала мне показалось, что лучший вариант — это pdfit, пока я не заметила, что результат-то — картинка, что меня абсолютно не устраивает. Почему-то сначала казалось, что сохраняется нормальный документ.
Ну и в итоге, выходит, что самое лучшее из найденного — Online Convert, не смотря на открытие страницы сервиса. Зато помимо создания аккуратного pdf-документа с работающими ссылками и без логотипов, там ещё и автоматически созданное содержание.
Напоследок замечу, что помимо упомянутых тут аналогов подобных аддонов для Chrome, для него существует ещё пара-тройка своих аддонов, а также существует ещё несколько он-лайн сервисов, не предоставляющих дополнения для браузеров. Но если дойдут руки, будет уже отдельная тема.
И небольшая статистика по размерам получающихся файлов: одна и та же страничка, имеющая размер около 400 Кб (если её сохранить традиционно со всеми файлами), в mht получилась весящей 560 Кб (использовался аддон для firefox). А файлы pdf имели разные размеры в зависимости от используемого дополнения: PrintPdf — 540 Кб, Save as PDF — 470 Кб, web2pdf — 350 Кб, Online Convert — 330 Кб, pdfit — 8 Мб (ну это вообще картинка, напомню), а PDF Download — неизвестно (очень долго шуршало, я не дожадалась). Хотя, это конечно не точные показатели, но принять во внимание можно.