Mkdir
Июнь 13, 2012 00:38:58
Привет всем! А так же тем, кто ещё помнит меня :)
Подскажите, пожалуйста, как можно проверить тип прокси сервера средствами питона или при помощи сторонних либ.
Нужно узнать, поддерживает ли прокси HTTP и/или HTTPS? Использует ли прокси SOCKS4 или SOCKS5?
Может, уже есть какие-то готовые решения и мне не придётся глубоко копать в тему ;)
slav0nic
Июнь 13, 2012 09:32:34
ёпт, какие люди)
socks4 и socks5 смотри протоколы, там по-моему в первом пакете есть маркер + он отличается от http.
https наверно тупо запросом на какой-то сервис + если поддерживается connect метод то скорей всего и https прокатит
из чекеров раньше был гуёвый proxybag на питоне c WX + погугли что такое ProxyJudge, может пригодится
lorien
Июнь 13, 2012 19:58:24
> Подскажите, пожалуйста, как можно проверить тип прокси сервера средствами питона или при помощи сторонних либ.
Запрашиваем какой-нить yandex.ru/robots.txt через проксю, выставляю socks5 тип, если пришёл ответ правильный, значит прокся socks5. Далее запрашиваем этот же урл, используая socks4 тип, и т.д. :)
Mkdir
Июнь 15, 2012 01:28:25
lorien
> Подскажите, пожалуйста, как можно проверить тип прокси сервера средствами питона или при помощи сторонних либ.
Запрашиваем какой-нить yandex.ru/robots.txt через проксю, выставляю socks5 тип, если пришёл ответ правильный, значит прокся socks5. Далее запрашиваем этот же урл, используая socks4 тип, и т.д. :)
Кстати, ответ очень в тему, потому что я юзаю твой Grab :) Отличная штука! Большое спасибо!
Тут есть еще другой прикол. Мне нужно проверять прокси на анонимность. То есть, придётся вешать на своём серваке скрипт, который показывает удалённый REMOTE_ADDR. И если он не совпадает с IP скрипта прокси-чекера, то значит прокси анонимен. Видимо, придётся на своем серваке поднимать SSL… Иначе как проверить проксю на поддержку HTTPS и анонимность.
slav0nic
из чекеров раньше был гуёвый proxybag на питоне c WX + погугли что такое ProxyJudge, может пригодится
Спасибо! Гляну.
slav0nic
Июнь 15, 2012 09:10:18
Mkdir
свой скрипт для проверки анонимности и есть ProxyJudge, в терминологии тех, кто в теме ;)
lorien
Июнь 15, 2012 15:53:09
> И если он не совпадает с IP скрипта прокси-чекера, то значит прокси анонимен. Видимо, придётся на своем серваке поднимать SSL… Иначе как проверить проксю на поддержку HTTPS и анонимность.
А зачем свой скрипт поднимать? Сайтов определяющих ip - тысячи. Я, например, сейчас в скриптах юзаю
http://formyip.com :) Конечно, если очень большие нагрузки, то лучше своё поднять, чтобы не завалить ненароком чужой сайт.
Я недавно делал прокси чекер, так я вообще проверял всё с помощью публичных ресусров. Вот кстати его код:
http://dumpz.org/217066/
Mkdir
Июнь 15, 2012 18:45:10
slav0nic
Mkdir
свой скрипт для проверки анонимности и есть ProxyJudge, в терминологии тех, кто в теме ;)
Но там перл… :) А мне надо сразу после проверки складывать в БД. Не хочется парсить результаты stdout ProxyJudge и складывать в базу. Криво как-то. Не?
Mkdir
Июнь 15, 2012 18:53:45
lorien
А зачем свой скрипт поднимать? Сайтов определяющих ip - тысячи. Я, например, сейчас в скриптах юзаю http://formyip.com :)
Formyip.com не умеет HTTPS. Но идея хорошая. Странно, что такая простая мысль не пришла мне в голову :)
lorien
Конечно, если очень большие нагрузки, то лучше своё поднять, чтобы не завалить ненароком чужой сайт.
Чекер будет проверять около 60-70к прокси за один проход. Параллельных соединений не будет, скорее всего. По идее, не завалю.
lorien
Я недавно делал прокси чекер, так я вообще проверял всё с помощью публичных ресусров. Вот кстати его код: http://dumpz.org/217066/
О, спасибо!
lorien
Июнь 15, 2012 20:19:48
> Чекер будет проверять около 60-70к прокси за один проход. Параллельных соединений не будет, скорее всего. По идее, не завалю.
Хм, если предположить что timeout ранве 5 сек, и там будет 20% нерабочих прокси, то этот чекер будет работать, как минимум (5 * 60000) / 5 = 60000 секунд или 16 часов :o)
Mkdir
Июнь 15, 2012 21:38:12
lorien
> Чекер будет проверять около 60-70к прокси за один проход. Параллельных соединений не будет, скорее всего. По идее, не завалю.
Хм, если предположить что timeout ранве 5 сек, и там будет 20% нерабочих прокси, то этот чекер будет работать, как минимум (5 * 60000) / 5 = 60000 секунд или 16 часов :o)
Чёрт! Точно! Значит надо асинхронный spider юзать.