Найти - Пользователи
Полная версия: Нужно написать парсер сайтов (за деньги)
Начало » Флейм » Нужно написать парсер сайтов (за деньги)
1
ilya0067
Всех приветствую! Мне нужен парсер сайтов готовый выполнять следующие действия:

-Получать список сайтов из выдачи поисковой системы по заданному запросу
-Рекурсивно обходить сайты в несколько потоков и собирать текстовые данные (title,meta,body), а также внутренние ссылки
-Делать выборку внешних ссылок из одного или нескольких сервисов (yahoo, solomono,…)
-Сохранять данные в sql базе, требуется поддержка mysql и какого-нибудь встраиваемого движка типа sqlite (в идеале полная абстракция бд)
-Далее на основе данных в базе вычислять следующие параметры для сайтов (и там же их и сохранять в отдельных полях):
1. Размер текста
2. Количество вхождений отдельных слов заданного запроса в текст документа с учетом морфологии
3. Количество вхождений всего запроса в текст документа
4. То же, что и в предыдущих двух пунктах, только для всех страниц сайта
7. Количество вхождений ключевых слов в анкор-лист (внешний и внутренний)
…возможно еще несколько пунктов
- Учитывать robots.txt, отслеживать битые ссылки и ошибки сервера.

В общем задача корректно собрать данные и сложить в базу и самое главное реализовать поддержку русской морфологии (pymorphy).

Речь об интерфейсе пользователя пока не идет. На завершении мне нужно что-то типа скрипта-заготовки, в который можно будет прописывать sql запросы для выборки данных и подсчета статистики.

Кто-нибудь заинтересован в сотрудничестве?
Сколько (пока приблизительно) времени/денег потребуется?
sypper-pit
какие поисковые системы , и запросы ?
uhbif19
Еще актуально ?
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB