Форум сайта python.su
Всех приветствую! Мне нужен парсер сайтов готовый выполнять следующие действия:
-Получать список сайтов из выдачи поисковой системы по заданному запросу
-Рекурсивно обходить сайты в несколько потоков и собирать текстовые данные (title,meta,body), а также внутренние ссылки
-Делать выборку внешних ссылок из одного или нескольких сервисов (yahoo, solomono,…)
-Сохранять данные в sql базе, требуется поддержка mysql и какого-нибудь встраиваемого движка типа sqlite (в идеале полная абстракция бд)
-Далее на основе данных в базе вычислять следующие параметры для сайтов (и там же их и сохранять в отдельных полях):
1. Размер текста
2. Количество вхождений отдельных слов заданного запроса в текст документа с учетом морфологии
3. Количество вхождений всего запроса в текст документа
4. То же, что и в предыдущих двух пунктах, только для всех страниц сайта
7. Количество вхождений ключевых слов в анкор-лист (внешний и внутренний)
…возможно еще несколько пунктов
- Учитывать robots.txt, отслеживать битые ссылки и ошибки сервера.
В общем задача корректно собрать данные и сложить в базу и самое главное реализовать поддержку русской морфологии (pymorphy).
Речь об интерфейсе пользователя пока не идет. На завершении мне нужно что-то типа скрипта-заготовки, в который можно будет прописывать sql запросы для выборки данных и подсчета статистики.
Кто-нибудь заинтересован в сотрудничестве?
Сколько (пока приблизительно) времени/денег потребуется?
Офлайн
какие поисковые системы , и запросы ?
Офлайн
Еще актуально ?
Офлайн