Форум сайта python.su
Здраствуйте. Возникла проблема парсинга однотипных страниц. Очень-очень много. По сути, нужно считать всего одну строку на странице, Имеется ли в lxml возможность кэширования страницы для более быстрой подгрузки?
Офлайн
хз, но можно заюзать мультипроцессинг
Офлайн
В таком случае обычно можно написать регулярное выражение которое много много быстрее…
Это конечно не отменяет мультипроцессинг.
Отредактировано doza_and (Дек. 26, 2013 22:31:10)
Офлайн
Как вы себе это представляете? lxml распарсил документ и оставил его структуры в памяти? так ему тогда для следующего кроме парсинга еще и сравнение с этими структурами делать придется :)
ЗЫ: doza_and, прав, я бы тоже для одной строчки регулярку пользовал
Офлайн
Да, сравнение - это еще хуже) Вообще думал загружать что-то типа:
html = urllib.request.urlopen('http://site.ru/').read(1000)
Офлайн
RazorКак то это выглядит не совсем правдоподобно. Откуда берутся эти много-много страниц, зачем они нужны?
Здраствуйте. Возникла проблема парсинга однотипных страниц. Очень-очень много. По сути, нужно считать всего одну строку на странице
Отредактировано FishHook (Дек. 27, 2013 15:44:21)
Офлайн
FishHookНу, не знаю, может высасываются из базы данных и обрабатываются PHP, исходников не давали) Как и самой базы, впрочем.
Откуда берутся эти много-много страниц
FishHookЭто, скорее, философский вопрос.
зачем они нужны
Отредактировано Razor (Дек. 27, 2013 16:22:55)
Офлайн
Razor,
итак, допустим у нас есть страница по адресу www.foo.bar.ru.
Я так понимаю, что Вы парсите эту станицу с некой периодичностью и она каждый раз разная.
У Вас задача вычислять некую “уникальную информацию” при каждом обновлении.
Честно говоря, не понял где тут “ Очень-очень много”, ну фиг с ним.
Вопрос, Вы разобрались в разметке страницы, которую парсите? Вы уверены, что нужная Вам информация не получается аяксом? Вы уверены, что то, что Вы видите в браузере не сгенерировано JavaScript-ом?
Офлайн
FishHookРазумеется.
Вопрос, Вы разобрались в разметке страницы, которую парсите?
FishHookНет, не уверен.
Вы уверены, что нужная Вам информация не получается аяксом? Вы уверены, что то, что Вы видите в браузере не сгенерировано JavaScript-ом?
Офлайн
Вопроc, Вы разобрались в разметке страницы
Razor
Разумеется.
Вы уверены, что нужная Вам информация не получается аяксом
RazorЭто сильно!
Нет, не уверен.
Каким образом мне поможет знание о генерации этих данных Ява/Джава/ЖабаСкриптом?Я не знаю, что Вы делаете, я задаюсь вопросом: если у Вас есть “ Очень-очень много” одинаковых страниц с одного адреса, какого черта их очень-очень много? Вы дали адрес, я обновлял страницу по этому адресу раз в 3 секунды в течении пяти минут - она не изменилась визуально. Откуда Вы взяли их очень много, я не понял. Предположил, что возможно Вы имеете дело с одностраничным сайтом и пытаетесь его парсить обычными методами.
Офлайн