Уведомления

Группа в Telegram: @pythonsu

#1 Сен. 9, 2011 02:01:32

ilya0067
От:
Зарегистрирован: 2011-09-09
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Нужно написать парсер сайтов (за деньги)

Всех приветствую! Мне нужен парсер сайтов готовый выполнять следующие действия:

-Получать список сайтов из выдачи поисковой системы по заданному запросу
-Рекурсивно обходить сайты в несколько потоков и собирать текстовые данные (title,meta,body), а также внутренние ссылки
-Делать выборку внешних ссылок из одного или нескольких сервисов (yahoo, solomono,…)
-Сохранять данные в sql базе, требуется поддержка mysql и какого-нибудь встраиваемого движка типа sqlite (в идеале полная абстракция бд)
-Далее на основе данных в базе вычислять следующие параметры для сайтов (и там же их и сохранять в отдельных полях):
1. Размер текста
2. Количество вхождений отдельных слов заданного запроса в текст документа с учетом морфологии
3. Количество вхождений всего запроса в текст документа
4. То же, что и в предыдущих двух пунктах, только для всех страниц сайта
7. Количество вхождений ключевых слов в анкор-лист (внешний и внутренний)
…возможно еще несколько пунктов
- Учитывать robots.txt, отслеживать битые ссылки и ошибки сервера.

В общем задача корректно собрать данные и сложить в базу и самое главное реализовать поддержку русской морфологии (pymorphy).

Речь об интерфейсе пользователя пока не идет. На завершении мне нужно что-то типа скрипта-заготовки, в который можно будет прописывать sql запросы для выборки данных и подсчета статистики.

Кто-нибудь заинтересован в сотрудничестве?
Сколько (пока приблизительно) времени/денег потребуется?



Офлайн

#2 Сен. 9, 2011 22:57:37

sypper-pit
От: Ulan-Ude(msk)
Зарегистрирован: 2009-01-30
Сообщения: 1102
Репутация: +  6  -
Профиль   Отправить e-mail  

Нужно написать парсер сайтов (за деньги)

какие поисковые системы , и запросы ?

Офлайн

#3 Дек. 7, 2011 19:11:49

uhbif19
От:
Зарегистрирован: 2010-05-22
Сообщения: 56
Репутация: +  0  -
Профиль   Отправить e-mail  

Нужно написать парсер сайтов (за деньги)

Еще актуально ?



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version