Как взять книгу из Internet. Практическое руководство

Попробуйте ответить на вопрос: что делает человек, когда ему нужна информация? Ответы предвижу самые разнообразные, от "звонит 09" до "идет в библиотеку". И все они будут верны. А теперь наложим на вопрос добавочное условие и прочитаем его в новом виде: Что делает человек, когда ему нужна информация, если у него есть доступ в Интернет? И уж тут-то ответ напрашивается сам собой: Естественно, идет в Интернет. А дальше уже дело техники: поисковые серверы, корректные запросы, устаревшие и (или) неработающие ссылки... и т.д. и т.п. Но сейчас речь не об этом, а о том, что делать с найденной (порой довольно тернистым путем) информацией, если ее много.
Столкнулся я с такой проблемой уже не впервые, но на этот раз, что называется, "приперло". Уж очень мне была нужна информация из книги, выложенной в HTML формате на одном сайте. Тут искушенные пользователи всемирной сети скажут: "В чем же дело? Берешь программу типа Teleport Pro, GetRigt или еще что-нибудь подобное, и в путь! Да, без таких программ, конечно, обойтись трудно, хотя теоретически возможно.

Для непросвещенных поясню, упомянутые выше программы вытягивают по URL адресу заглавной странички весь сайт и записывают со всей его структурой на ваш любимый винчестер.

Но что же дальше? Читать на экране монитора книгу листов этак на двести (так было в моем случае) - это ли не извращение? Вот именно, извращение! А когда под рукой всегда стоит принтер, то не распечатать все это просто преступление против себя родимого. Но вот тут-то и начинаются проблемы. Как, скажите, напечатать книгу в формате HTML, если она, со всеми ее разделами и подразделами, разбита на более 100 разрозненных ".html", ".gif", и ".jpg" файлов. Сама мысль о том, чтобы вручную "склеить" книгу в один файл где-нибудь в Word-е, привела меня в дикое уныние, способное начисто отбить тягу к знаниям. Первым желанием было написать программу, которая сделает это все сама, даже если на ее написание уйдет больше времени, чем если бы я все это делал вручную. Кроме того, к этому варианту решения проблемы подталкивала уверенность в том, что это не последняя книга, понадобившаяся мне из Интернета. Но, немного поразмыслив, я пришел к выводу, что не я первый столкнулся с этой проблемой и (учитывая возраст Internet) уж наверняка кто-то ее решил. Короче говоря, я решил найти такую программу и отправился на ее поиски в "великую паутину".

Здесь я должен сделать небольшое отступление. Не так давно, месяца полтора назад, я столкнулся с похожей проблемой. Разница была лишь в том, что мне нужно было распечатать хелп по одной из программ. Хелп был в стандартном формате Windows, т.е. файл типа ".hlp". Все прекрасно знают, что это такое, в общем-то принцип там такой же, как и в HTML - те же переходы по ссылкам в тексте. Это, конечно, удобно, но не для печати. Максимум, что мне удалось "выдоить" из этого формата, это печать каждого раздела по отдельности. Быстро сообразив, каким количеством бумаги и, главное, потраченного даром времени мне это обойдется, я бросил это неблагодарное занятие. Так вот, тогда я довольно быстро отыскал в Интернете чудесную программку "Help To RTF". Программка эта - штука действительно стоящая, и тогда мне здорово помогла. Архив с ней назывался "hlp2rtf.zip".

Теперь вам будет понятно, почему я сразу кинулся шарить по FTP серверам в поисках чего-либо типа "htm2rtf.zip", и вскоре такой архивчик нашелся. Каково же было мое разочарование, когда вытянутая программка всего лишь перегоняла один указанный ".htm" или ".html" файл в RTF формат, да еще и работала в консольном режиме. Дальнейшее "шатание по сети" ни к чему не привело. Не нашлось даже упоминания о чем-либо подобном. Я начал вспоминать, где я скачал конвертер "Help To RTF", но это был всего лишь чей-то "хомяк" и того, что мне было нужно, на нем не было. Ну, тут уж пришел черед просмотреть хелп вышеупомянутого конвертера. Оттуда и выяснилось, что родная страничка программы - "http://www.herdsoft.com/" - пренадлежит немецкой (не путать с ненецкой:-)) компании "Herd Software Entwicklung". Немного поблуждав по сайту, благо предусмотрен английский вариант, я наткнулся на нечто отдаленно меня устраивающее. По крайней мере, в описании предлагаемой программы "Visitor" было заявлено, что с ее помощью можно сохранить сайт со всей его структурой в ".hlp" формате. Хотя это было не совсем то, что хотелось бы, в принципе (ввиду наличия конвертера "Help To RTF"), вполне устраивало.

Сразу скажу - программа не разочаровала. И даже более того, обнаружилась возможность напрямую тянуть сайт из Интернета, по URL адресу, не пользуясь для этого другими программами, а также возможность конвертировать сайт напрямую в RTF формат. Это ли не везение? Казалось бы, ну что еще нужно человеку для счастья? Ан нет, опять неувязка. Проблема на этот раз обнаружилась после конвертации сайта. Все дело в том, что нужная мне книга была в кодировке KOI-8, а в наш с вами дорогой Word шрифты KOI-8 в стандартной комплектации не входят. Здесь, конечно, можно было порыскать в И-нете и найти подходящие шрифты, но решением проблеммы это бы не стало. Ведь не известно, в какой кодировке будет следующая выкачанная книга. И пошел я снова в мир WWW на поиски какого-нибудь перекодировщика. Справедливости ради стоит заметить, что перекодировщиков нашлось привеликое множество. Правда, многие из них перекодировали по одному файлу, как это делала программа "htm2rtf". Но в конце концов нашел я приличную программку (на http://recoder.da.ru./), работающую со множеством кодировок в любом направлении, да еще и поддерживающую до четырех наложений кодировок друг на друга. Называется она TOT-RECODE II. Программка, кстати, написана нашим с вами соотечественником (по СССР) Ашотом Оганесяном, и хоть интерфейс на английском языке, зато хелп - на русском. Плюс ко всему она позволяет перекодировать сразу всю директорию (или некоторое количество выбранных файлов), а не по одному файлу, что меня вполне удовлетворило.

Ну вот, в общем-то, все необходимое собрано. Теперь конвертируем "книжный" сайт из KOI-8 в Win-1251, переводим в RTF формат и грузим в Word. Получилось просто великолепно. Помимо обычной группировки текста в один файл, "Visitor" сварганил еще оглавление и предметный указатель. Кстати, этого следовало ожидать, так как программа "Help To RTF" (той же фирмы, как вы помните) предоставляет аналогичный сервис. Теперь, немного подредактировав полученную "конфетку", спокойно выводим ее на печать. И все, можно читать книгу где угодно и когда угодно, а не только сидя перед монитором.

Надеюсь, мой опыт будет вам полезен. Кстати, если кто-то знает, где взять программку, которая делает все вышеописанное в одиночку (без привлечения сторонней помощи), пишите, буду благодарен. Хотя, это я, наверное, уже раскатал.

Сергей Нематов


Компьютерная газета. Статья была опубликована в номере 02 за 2000 год в рубрике soft :: интернет

©1997-2024 Компьютерная газета