Найти - Пользователи
Полная версия: vanished
Начало » Python для экспертов » vanished
1
Kirill123
Формулировка задачи
Большинство веб-страниц сейчас перегружено всевозможной рекламой… Наша задача «вытащить»
из веб-страницы только полезную информацию, отбросив весь «мусор» (навигацию, рекламу и тд).
Полученный текст нужно отформатировать для максимально комфортного чтения в любом
текстовом редакторе. Правила форматирования: ширина строки не больше 80 символов (если
больше, переносим по словам), абзацы и заголовки отбиваются пустой строкой. Если в тексте
встречаются ссылки, то URL вставить в текст в квадратных скобках. Остальные правила на ваше
усмотрение.
Программа оформляется в виде утилиты командной строки, которой в качестве параметра
указывается произвольный URL. Она извлекает по этому URL страницу, обрабатывает ее и
формирует текстовый файл с текстом статьи, представленной на данной странице.
В качестве примера можно взять любую статью на lenta.ru, gazeta.ru и тд
Алгоритм должен быть максимально универсальным, то есть работать на большинстве сайтов.
Усложнение задачи 1: Имя выходного файла должно формироваться автоматически по URL.
Примерно так:
http://lenta.ru/news/2013/03/dtp/index.html => /lenta.ru/news/2013/03/dtp/index.txt
terabayt
цена?
tz4678@gmail.com
vanished
tz4678@gmail.com
vanished
Kirill123
вот в этом и проблема, что надо сделать программу которая по всем информационным сайтам ищет информацию
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB