Форум сайта python.su
Всем доброго!
Пытаюсь разобраться с регулярными выражениями.
Пишу код:
# -*- coding: utf-8 -*-
import re
pattern = ur'href="(.*?)">(.*?)</a>'
number_re = re.compile(pattern)
hhh = u'<a href="www.ya.ru">яндекс</a>'
s = number_re.findall(hhh)
print unicode(s)
[(u'www.ya.ru', u'\u044f\u043d\u0434\u0435\u043a\u0441')]
<a href="www.ya.ru onClick=win(400,350) target=window">яндекс</a>
Офлайн
1. Выводите строку, а не list и проблемы с кодировкой не будет.
2. Брать то что идёт после <a href=" и до первого пробела, ну и от > до <
Отредактировано (Ноя. 24, 2009 18:42:55)
Офлайн
Не могли бы Вы подсказать как вывести строку в данном случае?
Я просто не понимаю.
Офлайн
print s[0][1]
.....
pattern = ur'href="(.*?)[\ "].*?>(.*?)</a>'
Отредактировано (Ноя. 24, 2009 20:10:32)
Офлайн
У меня получилось побороть проблему с кодировкой таким способом:
# -*- coding: utf-8 -*-
import re
pattern = ur'href="(.*?)[\ "].*?>(.*?)</a>'
number_re = re.compile(pattern)
hhh = '<a href="www.ya.ru">яндекс</a>'
s = number_re.findall(hhh)
for k in s:
for kk in k:
print kk.decode('utf-8')
Офлайн
Cover StoryА была какая-то проблема?
У меня получилось побороть проблему с кодировкой таким способом:
Офлайн