Найти - Пользователи
Полная версия: Нужен программист. Многопоточный парсер.
Начало » Флейм » Нужен программист. Многопоточный парсер.
1
vlad07
Нужен скоростной парсер на Питоне, минимальная скорость 1000 url в секунду.
Нужна быстрая и стабильная работа парсера.

Присылайте в личку:

1) скорость парсера (url/сек)
2) конфигурация VDS (сервера) необходимая для данной скорости (процессор, RAM и.т.д)
3) что необходимо устанавливать на сервере (версия Питона, дополнительные модули, какие хранилища данных)
4) стоимость
5) сроки написания

Если есть готовое решение, могу купить.
Пишите функционал.
Андрей Светлов
Не редкость бестолковые требования.
vlad07
требования минимальная скорость 1000 url в секунду и стабильная работа скрипта.
Если какие-то 5-10 url не откроются , отправляем их в конец очереди или еще куда-то.

Если при задании минимума работать в 1000 url в секунду будет работать в 900 url в секунду - это не проблема (10 процентов на погрешность)

Не могли бы Вы пояснить почему бестолковые требования?
Питон на такое не способен?
truporez
vlad07
Не могли бы Вы пояснить почему бестолковые требования?
очень неконкретные
Андрей Светлов
Перво-наперво вы не сказали, что подразумеваете под словом «парсинг».
Скачать 1000 url и выделить из каждого body — не представляет никакого труда.
Мне ни в коем случае не интересно ваше предложение — но абсурдность т.з. впечатляет.
vlad07
ТЗ заключается в том, чтобы работало именно с такой скоростью.
А детали в личной переписке.
Lexander
vlad07
ТЗ заключается в том, чтобы работало именно с такой скоростью.
А детали в личной переписке.
То, что вы просите присылать вам в личку как раз и зависит от деталей.
Парсинг (любой сложности) зависит, например, от объема документа.
А способ парсинга вообще зависит от технологии формирования страницы.
Например, парсинг кода, генерируемого javascript, требует использования Webkit- или Firefox-движка и осуществляется его средствами уже после генерации страницы.
vlad07
Внутреннюю логику парсера я сам буду писать.
Питон изучаю недавно, и пока не получается подружиться с потоками.
От Вас надо только реализовать скорость 1000 url в секунду и хранилище - которое будет оптимально для такой скорости.
Больше ничего не требуется.
shep
Scrapy не пробовали?
vlad07
shep
Scrapy не пробовали?
Scrapy рассматриваю как вариант в тех местах, где нужно заполнение форм, куки, авторизация.
(А еще лучше возможно spynner, он умеет javascript)

В моем случае, мне нужен обычный парсинг.

Намучился с 3-м питоном и потоками, установил Python2.6 и pycurl с поддержкой c-ares.
1000 url в секунду проходит легко вот на такой VPS

http://www.hetzner.de/hosting/produkte_vserver/vq12

Вот мануальчик по которому все сделал, если кому интересно:

http://habrahabr.ru/blogs/personal/61960/

Тему можно закрыть.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB