Ctrl →

pochechyev · Май 28, 2008 15:55:39

Приветствую!

Нужно реализовать сабж на питоне.

Сравнительную характеристику нашел здесь ( http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/ )

До этого юзал cElementTree для парсинга XML.
Для работы с HTML cElementTree мне показался убогим.

Очень важна скорость поэтому сейчас смотрю на lxml.

Кто что посоветует?

Ferroman · Май 28, 2008 16:16:34

А htmllib чем не угодил?
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопроса.

pochechyev · Май 28, 2008 16:27:06

Ferroman
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопрос

Написано неплохо, только я хочу спросить у общественности кто как делал - один мозг хорошо, а два лучше )))

ЗЫ: либо я не разобрался с htmllib, либо это не очень хорошая библиотека. Из того что не понравилось - задокументирована ровно половина методов класса HTMLParser, а об остальных в документации даже не упоминается.

playpauseandstop · Май 28, 2008 16:32:38

я в большинстве проектов использую BeautifulSoup из-за его простоты и понятности… но так как вам надо более скоростное решение - это не вариант…

Ferroman · Май 28, 2008 16:43:18

Если скорость критична - берите самую быструю либу. Если не очень - BeautifulSoup хорошо подойдёт.

Андрей Светлов · Май 28, 2008 18:15:17

pochechyev
Ferroman
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопрос
Написано неплохо, только я хочу спросить у общественности кто как делал - один мозг хорошо, а два лучше )))

ЗЫ: либо я не разобрался с htmllib, либо это не очень хорошая библиотека. Из того что не понравилось - задокументирована ровно половина методов класса HTMLParser, а об остальных в документации даже не упоминается.

Зато очень простые и понятные исходники. На них тоже полезно иногда посматривать :)

umup · Май 28, 2008 19:22:40

попробуйте еще HTML Tidy :
http://www.egenix.com/products/python/mxExperimental/mxTidy/

shiza · Май 28, 2008 21:49:17

umup
Tidy - это исправляльщик кривых html, но совсем не парсер.

Naota · Май 31, 2008 17:48:02

Я то же искал. Нашел вот такой простенький модуль http://www.crummy.com/software/BeautifulSoup :3 Мне очень понравился.

pochechyev · Май 31, 2008 19:10:34

Naota согласен с тобой что BeautifulSoup достаточно прост и удобен, Только вот по поводу скорости его работы что-то не понятно.
Кто что может сказать?

ЗЫ: скорость очень важна.

Python-сообщество

Уведомления

#1 Май 28, 2008 15:55:39

HTML parsing

#2 Май 28, 2008 16:16:34

HTML parsing

#3 Май 28, 2008 16:27:06

HTML parsing

#4 Май 28, 2008 16:32:38

HTML parsing

#5 Май 28, 2008 16:43:18

HTML parsing

#6 Май 28, 2008 18:15:17

HTML parsing

#7 Май 28, 2008 19:22:40

HTML parsing

#8 Май 28, 2008 21:49:17

HTML parsing

#9 Май 31, 2008 17:48:02

HTML parsing

#10 Май 31, 2008 19:10:34

HTML parsing

Board footer