Уведомления

Группа в Telegram: @pythonsu

#1 Май 28, 2008 15:55:39

pochechyev
От:
Зарегистрирован: 2008-02-29
Сообщения: 199
Репутация: +  0  -
Профиль   Отправить e-mail  

HTML parsing

Приветствую!

Нужно реализовать сабж на питоне.

Сравнительную характеристику нашел здесь ( http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/ )

До этого юзал cElementTree для парсинга XML.
Для работы с HTML cElementTree мне показался убогим.

Очень важна скорость поэтому сейчас смотрю на lxml.

Кто что посоветует?



Офлайн

#2 Май 28, 2008 16:16:34

Ferroman
От:
Зарегистрирован: 2006-11-16
Сообщения: 2759
Репутация: +  1  -
Профиль   Отправить e-mail  

HTML parsing

А htmllib чем не угодил?
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопроса.

Офлайн

#3 Май 28, 2008 16:27:06

pochechyev
От:
Зарегистрирован: 2008-02-29
Сообщения: 199
Репутация: +  0  -
Профиль   Отправить e-mail  

HTML parsing

Ferroman
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопрос
Написано неплохо, только я хочу спросить у общественности кто как делал - один мозг хорошо, а два лучше )))

ЗЫ: либо я не разобрался с htmllib, либо это не очень хорошая библиотека. Из того что не понравилось - задокументирована ровно половина методов класса HTMLParser, а об остальных в документации даже не упоминается.



Офлайн

#4 Май 28, 2008 16:32:38

playpauseandstop
От:
Зарегистрирован: 2007-10-31
Сообщения: 77
Репутация: +  0  -
Профиль   Отправить e-mail  

HTML parsing

я в большинстве проектов использую BeautifulSoup из-за его простоты и понятности… но так как вам надо более скоростное решение - это не вариант…



Офлайн

#5 Май 28, 2008 16:43:18

Ferroman
От:
Зарегистрирован: 2006-11-16
Сообщения: 2759
Репутация: +  1  -
Профиль   Отправить e-mail  

HTML parsing

Если скорость критична - берите самую быструю либу. Если не очень - BeautifulSoup хорошо подойдёт.

Офлайн

#6 Май 28, 2008 18:15:17

Андрей Светлов
От:
Зарегистрирован: 2007-05-15
Сообщения: 3137
Репутация: +  14  -
Профиль   Адрес электронной почты  

HTML parsing

pochechyev
Ferroman
А вообще по ссылке все неплохо написано, по-этому не понятна суть вопрос
Написано неплохо, только я хочу спросить у общественности кто как делал - один мозг хорошо, а два лучше )))

ЗЫ: либо я не разобрался с htmllib, либо это не очень хорошая библиотека. Из того что не понравилось - задокументирована ровно половина методов класса HTMLParser, а об остальных в документации даже не упоминается.
Зато очень простые и понятные исходники. На них тоже полезно иногда посматривать :)



Офлайн

#7 Май 28, 2008 19:22:40

umup
От:
Зарегистрирован: 2007-07-14
Сообщения: 53
Репутация: +  0  -
Профиль   Отправить e-mail  

HTML parsing

попробуйте еще HTML Tidy :
http://www.egenix.com/products/python/mxExperimental/mxTidy/



Офлайн

#8 Май 28, 2008 21:49:17

shiza
От:
Зарегистрирован: 2007-07-03
Сообщения: 1073
Репутация: +  0  -
Профиль   Отправить e-mail  

HTML parsing

umup
Tidy - это исправляльщик кривых html, но совсем не парсер.



Офлайн

#9 Май 31, 2008 17:48:02

Naota
От:
Зарегистрирован: 2007-06-04
Сообщения: 197
Репутация: +  0  -
Профиль   Отправить e-mail  

HTML parsing

Я то же искал. Нашел вот такой простенький модуль http://www.crummy.com/software/BeautifulSoup :3 Мне очень понравился.



Офлайн

#10 Май 31, 2008 19:10:34

pochechyev
От:
Зарегистрирован: 2008-02-29
Сообщения: 199
Репутация: +  0  -
Профиль   Отправить e-mail  

HTML parsing

Naota согласен с тобой что BeautifulSoup достаточно прост и удобен, Только вот по поводу скорости его работы что-то не понятно.
Кто что может сказать?

ЗЫ: скорость очень важна.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version