Найти - Пользователи
Полная версия: Загрузка страницы для дальнейшего парсинга
Начало » Web » Загрузка страницы для дальнейшего парсинга
1
bdshadow
Доброго времени суток!
Подскажите, как подгрузить код странички в том виде, в каком мы его видим в браузере. Я хочу подгрузить страницу, для её дальнейшего парсинга. Для этого делаю всё очевидно стандратно:
url = "ht@tp://www.5@zvezd.ru/schedule" #уберите @
page = urllib2.urlopen(urllib2.Request(url))
soup = BeautifulSoup(page.read())
# далее парсинг
Однако если взглянуть на HTML, который мы таким образом получили, и тот, что получаем, когда заходим просто через браузер - разные. В данном конкретном примере - нет фильмов.
<div class="sh_films_block">
        <div class="no_film_message">
         Ничего не нашел по заданным условиям.
         <br/>
         Попробуйте расширить условия.
        </div>
С помощью инструментов разработчика хрома посмотрел HTTP запросы которые отправляются на сервер, но самое информационное там - это куки. Попробовал так (четко повторил запрос как в браузере):
    url = "ht@tp://www.5@zvezd.ru/schedule" #уберите @
    values = {'Cookie': "BITRIX_SM_ACTUAL_CITY_ID_1=2; BITRIX_SM_COORDINATE_X=55.755768; BITRIX_SM_COORDINATE_Y=37.617671; и ещё кое-что",
              'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
              'Accept-Encoding': "gzip,deflate,sdch",
              'Accept-Language': "ru-RU,ru;q=0.8,en-US;q=0.6,en;q=0.4",
              'Connection': "keep-alive",
              'Host': "w@ww.5@zvezd.ru", #уберите @
              'Referer': "ht@tp://www.5@zvezd.ru/cinemas/paveletskaya/",
              'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.57 Safari/537.36"}
    data = urllib.urlencode(values)
    page = urllib2.urlopen(urllib2.Request(url, data))
    soup = BeautifulSoup(page.read())
Однако это тоже не привело к нужному результату. Подскажите, как подгрузить код странички в том виде, в каком мы его видим в браузере.
Заранее спасибо
o7412369815963
Потому что вы не тот урл парсите.
Нужно что-то типа http://www.5zvezd.ru/ajax/scheduleFilter.php
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB