Найти - Пользователи
Полная версия: HTML parsing
Начало » Python для экспертов » HTML parsing
1 2
pochechyev
Приветствую!

Нужно реализовать сабж на питоне.

Сравнительную характеристику нашел здесь ( http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/ )

До этого юзал cElementTree для парсинга XML.
Для работы с HTML cElementTree мне показался убогим.

Очень важна скорость поэтому сейчас смотрю на lxml.

Кто что посоветует?
Ferroman
А htmllib чем не угодил?
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопроса.
pochechyev
Ferroman
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопрос
Написано неплохо, только я хочу спросить у общественности кто как делал - один мозг хорошо, а два лучше )))

ЗЫ: либо я не разобрался с htmllib, либо это не очень хорошая библиотека. Из того что не понравилось - задокументирована ровно половина методов класса HTMLParser, а об остальных в документации даже не упоминается.
playpauseandstop
я в большинстве проектов использую BeautifulSoup из-за его простоты и понятности… но так как вам надо более скоростное решение - это не вариант…
Ferroman
Если скорость критична - берите самую быструю либу. Если не очень - BeautifulSoup хорошо подойдёт.
Андрей Светлов
pochechyev
Ferroman
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопрос
Написано неплохо, только я хочу спросить у общественности кто как делал - один мозг хорошо, а два лучше )))

ЗЫ: либо я не разобрался с htmllib, либо это не очень хорошая библиотека. Из того что не понравилось - задокументирована ровно половина методов класса HTMLParser, а об остальных в документации даже не упоминается.
Зато очень простые и понятные исходники. На них тоже полезно иногда посматривать :)
umup
попробуйте еще HTML Tidy :
http://www.egenix.com/products/python/mxExperimental/mxTidy/
shiza
umup
Tidy - это исправляльщик кривых html, но совсем не парсер.
Naota
Я то же искал. Нашел вот такой простенький модуль http://www.crummy.com/software/BeautifulSoup :3 Мне очень понравился.
pochechyev
Naota согласен с тобой что BeautifulSoup достаточно прост и удобен, Только вот по поводу скорости его работы что-то не понятно.
Кто что может сказать?

ЗЫ: скорость очень важна.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB