Заранее извиняюсь перед модераторами, если здесь для объявлений не место, укажите раздел и я перенесу сообщение.
Нужна помощь в разработке парсеров на 6-8 сайтов до конца следующей недели (2017-03-26).
Задача: будет предоставлен API в соответствии с которым нужно разработать по одному Python модулю на один сайт. Так же будет предоставлена рыба фреймворка в виде пакета Python, а разрабатываемые модули буду частью этого пакета. Сам “фреймворк” также может подвергаться изменениям без нарушения совместимости.
Так же нужно учитывать, что разработка будет вестись одновременно несколькими разработчиками с объединением кода в будущем, поэтому сильное отклонение от заданных начальных ограничений не приветствуется. Выбор сторонних зависимостей должен заранее согласовываться. Код будет приниматься мной в виде sdist и я так же буду заниматься его развёртыванием.
Что будем парсить. Собирать будем следующие данные о заданных в виде прямых ссылок товаров с интернет магазинов: цена, стоимость доставки, наличие на складе, все отзывы (тексты, рейтинги, pros/cons и т.д.). Сайты будут европейские и американские, придётся подтянуть свой фр. и испанский, например.
Модули будут разрабатываться в рамках пакета и исполняться как сервер. Взаимодействие потребителя с этим сервером будет происходить через execnet. Никаких планировщиков и никакого кеша не предусмотрено: запрос-ответ. В случае с ревью запрос может быть на полный сбор или только для последних (ревью могут исчисляться тысячами).
Разработка ведётся под Python 3 (3.4/3.5).
Другие значимые зависимости: gevent, requests и lxml.
Какие-либо сторонние фреймворки не используются.
Выход в интернеты будет осуществляться через предоставляемый список прокси + спец. заголовки для этих прокси (внешние IP). Ротация точек выхода, задержки между запросами и работа с кукисами на вас, активные блокировки встречаются в каждом пятом случае.
По итогам этого короткого марафона может быть предложено постоянное сотрудничество, нужно будет привести в порядок эти и ещё около 30 разношёрстных парсеров (одни на Twisted, другие на Mechanize) и поддерживать их до старости.
Детали (рыба пакета, API для реализации и пр.) после начала работы.
Цена вопроса: 50$ за сайт.
..bw