Форум сайта python.su
Приветствую!
Нужно реализовать сабж на питоне.
Сравнительную характеристику нашел здесь ( http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/ )
До этого юзал cElementTree для парсинга XML.
Для работы с HTML cElementTree мне показался убогим.
Очень важна скорость поэтому сейчас смотрю на lxml.
Кто что посоветует?
Офлайн
А htmllib чем не угодил?
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопроса.
Офлайн
FerromanНаписано неплохо, только я хочу спросить у общественности кто как делал - один мозг хорошо, а два лучше )))
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопрос
Офлайн
я в большинстве проектов использую BeautifulSoup из-за его простоты и понятности… но так как вам надо более скоростное решение - это не вариант…
Офлайн
Если скорость критична - берите самую быструю либу. Если не очень - BeautifulSoup хорошо подойдёт.
Офлайн
pochechyevЗато очень простые и понятные исходники. На них тоже полезно иногда посматривать :)FerromanНаписано неплохо, только я хочу спросить у общественности кто как делал - один мозг хорошо, а два лучше )))
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопрос
ЗЫ: либо я не разобрался с htmllib, либо это не очень хорошая библиотека. Из того что не понравилось - задокументирована ровно половина методов класса HTMLParser, а об остальных в документации даже не упоминается.
Офлайн
попробуйте еще HTML Tidy :
http://www.egenix.com/products/python/mxExperimental/mxTidy/
Офлайн
umup
Tidy - это исправляльщик кривых html, но совсем не парсер.
Офлайн
Я то же искал. Нашел вот такой простенький модуль http://www.crummy.com/software/BeautifulSoup :3 Мне очень понравился.
Офлайн
Naota согласен с тобой что BeautifulSoup достаточно прост и удобен, Только вот по поводу скорости его работы что-то не понятно.
Кто что может сказать?
ЗЫ: скорость очень важна.
Офлайн