html = urllib.request.urlopen('http://site.ru/').read(1000)
RazorКак то это выглядит не совсем правдоподобно. Откуда берутся эти много-много страниц, зачем они нужны?
Здраствуйте. Возникла проблема парсинга однотипных страниц. Очень-очень много. По сути, нужно считать всего одну строку на странице
FishHookНу, не знаю, может высасываются из базы данных и обрабатываются PHP, исходников не давали) Как и самой базы, впрочем.
Откуда берутся эти много-много страниц
FishHookЭто, скорее, философский вопрос.
зачем они нужны
FishHookРазумеется.
Вопрос, Вы разобрались в разметке страницы, которую парсите?
FishHookНет, не уверен.
Вы уверены, что нужная Вам информация не получается аяксом? Вы уверены, что то, что Вы видите в браузере не сгенерировано JavaScript-ом?
Вопроc, Вы разобрались в разметке страницы
Razor
Разумеется.
Вы уверены, что нужная Вам информация не получается аяксом
RazorЭто сильно!
Нет, не уверен.
Каким образом мне поможет знание о генерации этих данных Ява/Джава/ЖабаСкриптом?Я не знаю, что Вы делаете, я задаюсь вопросом: если у Вас есть “ Очень-очень много” одинаковых страниц с одного адреса, какого черта их очень-очень много? Вы дали адрес, я обновлял страницу по этому адресу раз в 3 секунды в течении пяти минут - она не изменилась визуально. Откуда Вы взяли их очень много, я не понял. Предположил, что возможно Вы имеете дело с одностраничным сайтом и пытаетесь его парсить обычными методами.