Уведомления

Группа в Telegram: @pythonsu
  • Начало
  • » Web
  • » инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта [RSS Feed]

#1 Июль 12, 2012 09:49:50

Dr.Livsi
От:
Зарегистрирован: 2010-02-15
Сообщения: 192
Репутация: +  3  -
Профиль   Отправить e-mail  

инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта

Всем доброго времени суток!
Для анализа сайта необходим инструмент, который бы анализировал весь сайт на предмет внутренних ссылок и выдавал в результате список этих самых ссылок. Т.е. результатом хотелось бы получить список всех страниц сайта, не требующих авторизации.
Не хотелось бы заново создавать велосипед. Возможно уже есть готовые решения на эту тему. Ткните носом, плиз.



Отредактировано Dr.Livsi (Июль 12, 2012 09:51:02)

Офлайн

#3 Июль 12, 2012 10:06:12

Dr.Livsi
От:
Зарегистрирован: 2010-02-15
Сообщения: 192
Репутация: +  3  -
Профиль   Отправить e-mail  

инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта

fata1ex
http://grablib.org/
Ну и поиск:
http://love-python.blogspot.com/2010/09/python-code-to-retrive-links-from-web.html
http://stackoverflow.com/questions/1080411/retrieve-links-from-web-page-using-python-and-beautiful-soup
http://pythonadventures.wordpress.com/2011/03/10/extract-all-links-from-a-web-page/
http://www.python-forum.org/pythonforum/viewtopic.php?f=5&t=10969
http://www.funnyduck.net/2010/01/python-get-links-from-page-matching.html

К сожалению, доступ к интернету на работе ограничен очень небольшим количеством сайтов. Поисковиков в этом списке нет :(

Спасибо за информацию.



Отредактировано Dr.Livsi (Июль 12, 2012 10:07:32)

Офлайн

#4 Июль 12, 2012 11:27:03

Dr.Livsi
От:
Зарегистрирован: 2010-02-15
Сообщения: 192
Репутация: +  3  -
Профиль   Отправить e-mail  

инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта

fata1ex
http://grablib.org/
http://scrapy.org/

http://www.crummy.com/software/BeautifulSoup/
http://code.google.com/p/html5lib/

Ну и поиск:
http://love-python.blogspot.com/2010/09/python-code-to-retrive-links-from-web.html
http://stackoverflow.com/questions/1080411/retrieve-links-from-web-page-using-python-and-beautiful-soup
http://pythonadventures.wordpress.com/2011/03/10/extract-all-links-from-a-web-page/
http://www.python-forum.org/pythonforum/viewtopic.php?f=5&t=10969
http://www.funnyduck.net/2010/01/python-get-links-from-page-matching.html

Не совсем то. На сколько я понял, эти решения делают список ссылок имеющихся на данной конкретной странице. А мне нужно решение, которое бы обходило все страницы сайта и возвращало список всех страниц сайта.



Офлайн

#5 Июль 12, 2012 11:50:30

fata1ex
От:
Зарегистрирован: 2009-07-11
Сообщения: 732
Репутация: +  52  -
Профиль   Отправить e-mail  

инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта

Dr.Livsi, во-первых, есть решения, которые ищут все ссылки на сайте. Во-вторых, если вы знаете, что такое рекурсия, то из вытаскивания ссылок с одной страницы желаемый вариант можно сделать за пару минут. И в-третьих, если вам всё это не подошло, есть первые две ссылки.

Ну и поисковик: ‘get/extract/retrieve links from site (page)’.



Офлайн

#6 Июль 12, 2012 12:28:27

Dr.Livsi
От:
Зарегистрирован: 2010-02-15
Сообщения: 192
Репутация: +  3  -
Профиль   Отправить e-mail  

инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта

fata1ex
Dr.Livsi, во-первых, есть решения, которые ищут все ссылки на сайте. Во-вторых, если вы знаете, что такое рекурсия, то из вытаскивания ссылок с одной страницы желаемый вариант можно сделать за пару минут. И в-третьих, если вам всё это не подошло, есть первые две ссылки.

Ну и поисковик: ‘get/extract/retrieve links from site (page)’.

Ok, буду смотреть внимательнее. Спасибо.



Офлайн

  • Начало
  • » Web
  • » инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта[RSS Feed]

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version