Сохранение веб-страниц в pdf-файлы

Порой может возникнуть надобность сохранить интернет-страницу на жёсткий диск. Стандартно всё делается просто — через пункт меню «Сохранить как…». На выходе получаем файл html и лежащую рядом почти одноимённую папку, содержащую все файлы страницы. Во многих случаях не слишком удобный «форм-фактор» и гораздо удобнее было бы иметь один файл, соответствующий одному «документу», но содержащий в себе все нужные элементы.
Варианты следующие (совсем маргинальные, вроде копирования вручную содержимого в текстовый процессор и затем сохранения в форматах odt или doc, я рассматривать не буду):

  • mht (mime html) — веб-архив. Вроде как именно для этого создавался. Можно получить, сохраняя страницы в IE и Opera. Для Firefox нужно поставить аддон UnMHT
  • chm (compiled html) — формат гипертекстовой справочной системы, специально разработанный Microsoft для встроенной помощи Windows. На мой взгляд этот вариант хуже — во-первых, создавался он изначально для конкретной задачи и не совсем той, что тут рассматривается, а во-вторых, со средствами сохранения в него ситуация хуже, да и с чтением не всё гладко на линуксах.
  • pdf (portable document format) — хорош кроссплатформенностью и открытостью. Со средствами просмотра всё обстоит прекрасно, насколько знаю, на всех системах. Несолько смущает, что цель у формата тоже несколько другая — прежде всего для электронного представления полиграфической продукции.
    Поддерживает ссылки, поиск по тексту, и в отличии от mht поддерживает структурированное содержание.

Читать далее