Сляпал колесо -
htmlcutРаботает с ограничениями, но большинство задач покрывает.
+ Работает быстрее большинства распарсивающих библиотек. т.к. основан на regex и выкусывает только нужные куски.
+ Не нужно указывать все вложенные теги, т.е. “<div> <span> <h1> <a> … ”, что-б найти “a” в “div” можно написать“div|a”
+ Маленький и простой (сама ф-ия около 50-и строк кода), кто захочет может допилить под себя.
например url из первого поста достается так:
from htmlcut import xget
html = "... <td><span class=small>1.</span><br><a href='/get/16052370' title='003 (1).jpg'>003 (1).jpg</a></td> ..."
print xget(html, 'td|a~href')
Работает так:
xget(html, ‘div@id=“some”|span@class=“text”|div’)
1) выкусывает первый div с атрибутом id=“some”
2) из полученного куска выкусывает первый span с атрибутом class=“text”
3) из полученного куска выкусывает dv и возвращает его содержимое
Если вместо html содержимого нужно значение атрибута, нужно написать ~attr_name
Если нужно несколько результатов, то указать True последним параметром