Уведомления

Группа в Telegram: @pythonsu

#1 Июль 18, 2012 18:17:33

Rediskin
Зарегистрирован: 2012-07-18
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг с beautifulsoup

Написал парсер с использованием beautifulsoup, который вытаскивает все модели и цены с нескольких интернет-магазинов бытовой техники. С одним из магазинов столкнулся со следующей проблемой:
На сайте много бытовой техники, но меня интересуют только LED-телевизоры. скармливаю ссылку на этот раздел парсеру, он вытаскивает из неё все страницы (выдача идёт по 30 моделей на странице), затем парсит их, и далее я уже как-то эти цены использую.
Вроде всё работало хорошо, но сегодня обнаружил модели, которые парсер по какой-то причине не нашёл. Дело оказалось в том, что выдача-то идёт по 30 моделей на странице, но на первой странице моделей больше, 60, вторая тридцатка подгружается в процессе прокручивания страницы. Причём она не совпадает с 30-кой из страницы под номером 2, Каким образом вытаскивать эти 30 телевизоров силами beautifulsoup не представляю. Есть ли возможность как-то прописать, чтобы эта самая прокрутка как-то имитировалась?
Искренне надеюсь, что есть простое решение, и это просто я сегодня заработался. Заранее спасибо. Специально для этого впервые зарегистрировался на подобном форуме, раньше обходился гуглом. Надеюсь, это всё к лучшему

Офлайн

#2 Июль 18, 2012 19:00:03

fata1ex
От:
Зарегистрирован: 2009-07-11
Сообщения: 732
Репутация: +  52  -
Профиль   Отправить e-mail  

Парсинг с beautifulsoup

Ну например - http://stackoverflow.com/questions/8084707/extracting-information-from-ajax-based-sites-using-python

Если из названия топика убрать союзы и ненужные слова, плюс заменить что-нибудь на синонимы, можно получить запрос, на который вам выпадет пару страниц материала по теме.

http://sourcecodebean.com/archives/parsing-ajax-web-pages-using-pykhtml
http://stackoverflow.com/questions/206855/scrape-a-dynamic-website
http://stackoverflow.com/questions/2610112/beautifulsoup-and-mechanize-to-get-ajax-call-result
http://stackoverflow.com/questions/5913280/beautifulsoup-and-ajax-table-problem



Отредактировано fata1ex (Июль 18, 2012 19:08:55)

Офлайн

#3 Июль 18, 2012 23:18:03

Rediskin
Зарегистрирован: 2012-07-18
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг с beautifulsoup

Огромное спасибо за ответ и оперативность! Ваши рекомендации помогли.)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version