Уведомления

Группа в Telegram: @pythonsu

#1 Май 31, 2008 19:36:32

bw
От:
Зарегистрирован: 2007-09-26
Сообщения: 938
Репутация: +  20  -
Профиль   Адрес электронной почты  

HTML parsing

Раньше использовал BeautifulSoup, сейчас пользуюсь html5lib (с xpath). Последний заметно корректнее разбирает кривой HTML, но он и медленнее. Быстрых альтернатив этим библиотекам нет, либо они мне не известны.
Что касается html5lib. Этот пакет формирует DOM, дальше я использую xpath. Скорость сравнивал только по связке html5lib + xpath, как я сказал это медленнее супа. Возможно я делал неоптимальные запросы xpath.

..bw



Офлайн

#2 Июнь 1, 2008 12:09:35

Naota
От:
Зарегистрирован: 2007-06-04
Сообщения: 197
Репутация: +  0  -
Профиль   Отправить e-mail  

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version