Уведомления

Группа в Telegram: @pythonsu
  • Начало
  • » Web
  • » Работоспособность страницы сайта [RSS Feed]

#1 Авг. 10, 2015 12:09:24

neitro
Зарегистрирован: 2015-03-13
Сообщения: 25
Репутация: +  0  -
Профиль   Отправить e-mail  

Работоспособность страницы сайта

Продолжаю изучать пайтон
Собственно вопрос пока больше теоретический:

На входе есть произвольный url адрес.
На выходе получить информацию о том рабочая ли страница или нет.

Естественно можно проверить состояние сайта - по коду ответа, но если был просрочен хостинг, например, или заблокирован, страница перенесена, ошибка 404.
На разных сайтах будут выдаваться совершенно различные варианты.

Алгоритм:
1) проверка на возвращаемый код
2) Если 200, то проверка на наличие ошибок

Есть такое подозрение, что для решения задачи нужно использовать что-то в виде нейронных сетей.
Ну или есть разработки аналогичные?

Офлайн

#2 Авг. 10, 2015 12:14:52

sander
Зарегистрирован: 2015-02-19
Сообщения: 317
Репутация: +  53  -
Профиль   Отправить e-mail  

Работоспособность страницы сайта

neitro
с каких пор что бы проверить код http-ответа нужны нейронные сети?

Офлайн

#3 Авг. 10, 2015 12:15:51

sander
Зарегистрирован: 2015-02-19
Сообщения: 317
Репутация: +  53  -
Профиль   Отправить e-mail  

Работоспособность страницы сайта

neitro
и 200 подразумевает отсутствие ошибок

Офлайн

#4 Авг. 10, 2015 14:34:31

4kpt_III
Зарегистрирован: 2014-12-22
Сообщения: 999
Репутация: +  39  -
Профиль   Отправить e-mail  

Работоспособность страницы сайта

neitro
Нейронные сети? Мать моя женщина…
Обязательно нейросети, ГА и нечеткая логика. Причем все сразу
А реально sander правильно написал. Код ответа 200 подразумевает, что все (во всяком случае на сервере) прошло успешно. И если результат не ожидаемый, значит что-то в функции-отображении на сервере у Вас не так, хотя она и выполнилась без ошибок

Отредактировано 4kpt_III (Авг. 10, 2015 14:39:43)

Офлайн

#5 Авг. 10, 2015 16:50:01

neitro
Зарегистрирован: 2015-03-13
Сообщения: 25
Репутация: +  0  -
Профиль   Отправить e-mail  

Работоспособность страницы сайта

Видимо я не совсем корректно уточнил.
Ответ 200 - не означает, что сайт работает - это может быть ответ хостинга.
Т.е. да сайт работает - только сайта на нем нет.

Задача подразумевает отлов ситуаций
1) был просрочен хостинг
2) сайт заблокирован хостингом
3) страница перенесена
4) ошибка 404
5) Парковочная страница

Поэтому уточню алгоритм:
1) Проверка кода (должен вернуть 200)
2) Если ответ 200 - это еще не значит, что сраница - это страница сайта, а не парковочная, 404 и т.д.

Т.е. пример из практики: домен не успели продлить - вместо сайта висит заглушка. Выдает ответ сервера 200. Но сайта там нет.
Вариант 2-й страницы нет на этом сайте - выдает ошибку 404.

Собственно вопрос, как эти ошибки отлавливать?

Офлайн

#6 Авг. 10, 2015 17:14:54

ayb
Зарегистрирован: 2014-04-01
Сообщения: 297
Репутация: +  24  -
Профиль   Отправить e-mail  

Работоспособность страницы сайта

neitro
Вариант 2-й страницы нет на этом сайте - выдает ошибку 404.

>>> requests.get("http://google.com/dsj")
<Response [404]>

Офлайн

#7 Авг. 10, 2015 18:53:41

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

Работоспособность страницы сайта

Задача подразумевает отлов ситуаций
1) был просрочен хостинг
2) сайт заблокирован хостингом
3) страница перенесена
4) ошибка 404
5) Парковочная страница
нереально
ну хотя бы, как вы собираетесь поступать с одностраничными сайтами? Я вам легко накидаю сайтик на ангуляре, об который ваша программа споткнется.



Офлайн

#8 Авг. 10, 2015 19:30:45

4kpt_III
Зарегистрирован: 2014-12-22
Сообщения: 999
Репутация: +  39  -
Профиль   Отправить e-mail  

Работоспособность страницы сайта

FishHook
Да накой здесь ангуляр. Можно с использованием обычного js это сделать… Идея в том, что эта задача изначально обречена на провал. Да и смысла в ней ноль.

Офлайн

#9 Авг. 11, 2015 06:00:55

PooH
От:
Зарегистрирован: 2006-12-05
Сообщения: 1948
Репутация: +  72  -
Профиль   Отправить e-mail  

Работоспособность страницы сайта

В сервисах контроля доступности сайта обычно используют поиск характерного для страницы текста. Если найден - считается, что страница отдана верно.



Вот здесь один из первых отарков съел лаборанта. Это был такой умный отарк, что понимал даже теорию относительности. Он разговаривал с лаборантом, а потом бросился на него и загрыз…

Офлайн

#10 Авг. 11, 2015 14:12:55

neitro
Зарегистрирован: 2015-03-13
Сообщения: 25
Репутация: +  0  -
Профиль   Отправить e-mail  

Работоспособность страницы сайта

PooH
обычно используют поиск характерного для страницы текста
Вот и я о том же подумал. Просто у различных хостингов эта информация отличается. Вот и вопрос как это сделать грамотнее - искать по куску кода. Ну не красиво же будет)

Офлайн

  • Начало
  • » Web
  • » Работоспособность страницы сайта[RSS Feed]

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version