Найти - Пользователи
Полная версия: Парсинг страницы: что за два разных кода?
Начало » Web » Парсинг страницы: что за два разных кода?
1
Jazzis
Для написания одной программки нужно пропарсить страницу сайта с выводом нужного элемента. Порыскав в инете, нашел вполне подходящий мне пример, немного его изменил, но возникла загвоздка: не могу понять, чтобы получить xpath или css-путь к нужному элементу (тэгу) использую утилиту Firebug для Firefox, но код который выдает Firebug (при просмотре всей страницы) значительно отличается от кода, который выдается, если нажать ПКМ по странице и выбрать “Исходный код страницы”. И поэтому когда я пытаюсь получить содержимое нужного элемента, то скрипт ничего не выдает. Следовательно возникает вопрос: что это за коды такие, которые отличаются?
import lxml.html
import urllib

page = urllib.urlopen('http://www.site.com')
doc = lxml.html.document_fromstring(page.read())

search = '/html/body'

for track in doc.xpath(search):
print track.text
www.site.com - к примеру написан, если нужно, то напишу тот который парсю..
PooH
“Исходный код страницы” показывает то, что браузер получил от сервера. Firebug показывает то дерево, что в итоге отображено. При этом исходный код мог содержать ошибки и браузер их интерпретирует по своему. Плюс часть элементов может генерироваться/преобразовываться скриптами. Давайте уже урл и путь к элементу.
Jazzis
Тада page и search будут выглядеть так.
page = urllib.urlopen('http://www.grind.fm/radio')
...
search = '/html/body/div[3]/div/div/div/div[2]/div/div/div[4]/div/table/tbody/tr[2]/th[2]'
путь к элементу выдран с помощью Firebug
PooH
Ну дык там таблица через javascript с урла http://www.grind.fm/sites/grind.fm/counter/meta2.php подгружается, его и стоит парсить - обрезать начало и конец и будет чистый JSON
Jazzis
PooH, спасибо, дальше работа закипела и ток щас отписываюсь)) и вопросец волнует, как вы узнали этот урл?
PooH
Jazzis
и вопросец волнует, как вы узнали этот урл?
Javascript на странице почитал. Можно было еще запросы в Firebug, на вкладке Сеть посмотреть.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB