lorien
Июль 8, 2013 20:12:36
> это можно сделать, но так как смысла нет, то и не делают
Простите, не понял, что вы написали такое.
py.user.next
Июль 8, 2013 20:30:47
lorien
Простите, не понял, что вы написали такое.
xml - слишком специфичная задача, чтобы полностью реализовывать весь xpath прямо сейчас
html-код модулем
xml не разберёшь, а поиск с xpath требуется там, где есть много произвольно меняющихся данных, быстро меняющихся структур документов
lorien
Я бы пользовался.
он сторонний, его нужно доустанавливать
bismigalis
Июль 9, 2013 07:08:26
inzem
Почему первое .*? срабатывает как жадное?
In : re.search(r'<.*?categ.*?>',
нормальное поведение, у Фридла всё расписано
сначала ищется lt, затем захватываются любые символы(в том числе lt) до categ, потом любые до gt.
lorien
Июль 9, 2013 08:28:28
> не, я имел в виду модуль xml, что он не подходит для разбора html-кода, потому что выпадает, когда встречает незакрытый тег если бы он подходил, никто бы не пользовался сторонним lxml
Ещё раз пишу, что слово “никто” здесь не уместно так как, как минимум, я продолжал бы пользоваться lxml т.к. он предоставляет поддержку xpath. Вот и всё, что я хотел сказать.
bismigalis
Июль 9, 2013 12:51:45
захват любых символов прекратится при встрече ‘>’
захват любых символов прекратится при встрече ‘categ’
тебе надо было написать