Проблема небольшая, помогите пожалуйста.
Имеем: питон 3 и граб 0.4.13
Пишем:
from grab import Grab g = Grab() g.go ('www.f1news.ru') print(g.doc.select('//title').text())
1 F1news.ru - 2014 1
Формула 1 на F1news.ru - новости чемпионата 2014 Формулы 1
Ну как бы граб должен автоматом определять кодировку, о чем нам и говорит документация
Но эта же документация нам говорит что может и не определить, не вопрос - мы не гордые. Идем в файербаг и смотрим что нам надо, а надо нам это:
<meta content="text/html; charset=windows-1251" http-equiv="Content-Type">
После чего возвращаемся в редактор кода и пишем слудующее:
from grab import Grab g = Grab() g.setup(charset = 'windows-1251') g.go ('www.f1news.ru') print(g.doc.select('//title').text())
В итоге получаем тоже что и в первом случае. Поробовал зайти на др сайты с такой же кодировкой, проблема не исчезла.
Что я делаю не так, подскажите.
Спасибо за ответы.
PS В порыве гнева перепробовал следующее:
g.setup(charset = 'Windows-1251') g.setup(charset = 'WINDOWS-1251') g.setup(charset = 'windows - 1251') g.setup(charset = 'cp1251') g.setup(charset = 'CP1251')