Python-сообщество

ustuz · Май 2, 2011 21:26:56

Всем доброго времени суток.

Столкнулся на днях с одной проблемой urljoin.

Пытаюсь распарсить html, и при этом перевести относительный адреса в абсолютные. Использую для это urljoin.

Проблема:
Есть сайт http://www.aaa.xxx

На html страничке http://www.aaa.xxx/a/b/c есть <a> тег с href = “a/b/c?param=d”

Браузеры превращают ссылку, описанную в этом теге в http://www.aaa.xxx/a/b/c?param=d

А вызов urljoin:
urlparse.urljoin("http://www.aaa.xxx/a/b/c“,”a/b/c?param=d")

выдает результат:
'http://www.aaa.xxx/a/b/a/b/c?param=d'

Кто-нибудь сталкивался с такой проблемой? Хотелось бы получить поведение идентичное поведению браузеров (и соответственно стандартам RFC).
Может есть аналог urljoin, работающий правильно?

bw · Май 2, 2011 21:56:57

Совершенно очевидно, что urljoin работает правильно.
Пилите дальше.

..bw

ustuz · Май 2, 2011 22:11:13

Хм…
Тогда вопрос: “Как повторить логику браузера при формировании абсолютного url?”

Есть ли функция (или набор функций), которые позволят это сделать?

bw · Май 2, 2011 22:37:06

Совершенно очевидно, что вы где-то косячите, по примеру, браузер такого делать не может.
@see: http://d69.dyndns.org/a/b/c

..bw

Александр Кошелев · Май 2, 2011 22:45:02

Скорее всего у страницы есть тег <base>

bw · Май 3, 2011 00:47:48

И правда, не знал. BASE объясняет такое поведение браузера. Век живи, век учись :-).

..bw

ustuz · Май 3, 2011 07:54:35

“Скорее всего у страницы есть тег <base>”

Спасибо большое, Александр! Действительно, этот тег присутствует на странице и его присутствие многое объясняет в поведении браузера.

Python-сообщество

Уведомления

#1 Май 2, 2011 21:26:56

Вопрос по urljoin

#2 Май 2, 2011 21:56:57

Вопрос по urljoin

#3 Май 2, 2011 22:11:13

Вопрос по urljoin

#4 Май 2, 2011 22:37:06

Вопрос по urljoin

#5 Май 2, 2011 22:45:02

Вопрос по urljoin

#6 Май 3, 2011 00:47:48

Вопрос по urljoin

#7 Май 3, 2011 07:54:35

Вопрос по urljoin

Board footer