Python-сообщество

Dr.Livsi · Июль 12, 2012 09:49:50

Всем доброго времени суток!
Для анализа сайта необходим инструмент, который бы анализировал весь сайт на предмет внутренних ссылок и выдавал в результате список этих самых ссылок. Т.е. результатом хотелось бы получить список всех страниц сайта, не требующих авторизации.
Не хотелось бы заново создавать велосипед. Возможно уже есть готовые решения на эту тему. Ткните носом, плиз.

Отредактировано Dr.Livsi (Июль 12, 2012 09:51:02)

fata1ex · Июль 12, 2012 09:56:40

http://grablib.org/
http://scrapy.org/

http://www.crummy.com/software/BeautifulSoup/
http://code.google.com/p/html5lib/

Ну и поиск:
http://love-python.blogspot.com/2010/09/python-code-to-retrive-links-from-web.html
http://stackoverflow.com/questions/1080411/retrieve-links-from-web-page-using-python-and-beautiful-soup
http://pythonadventures.wordpress.com/2011/03/10/extract-all-links-from-a-web-page/
http://www.python-forum.org/pythonforum/viewtopic.php?f=5&t=10969
http://www.funnyduck.net/2010/01/python-get-links-from-page-matching.html
…

Dr.Livsi · Июль 12, 2012 10:06:12

fata1ex
http://grablib.org/
Ну и поиск:
http://love-python.blogspot.com/2010/09/python-code-to-retrive-links-from-web.html
http://stackoverflow.com/questions/1080411/retrieve-links-from-web-page-using-python-and-beautiful-soup
http://pythonadventures.wordpress.com/2011/03/10/extract-all-links-from-a-web-page/
http://www.python-forum.org/pythonforum/viewtopic.php?f=5&t=10969
http://www.funnyduck.net/2010/01/python-get-links-from-page-matching.html
…

К сожалению, доступ к интернету на работе ограничен очень небольшим количеством сайтов. Поисковиков в этом списке нет :(

Спасибо за информацию.

Отредактировано Dr.Livsi (Июль 12, 2012 10:07:32)

Dr.Livsi · Июль 12, 2012 11:27:03

fata1ex
http://grablib.org/
http://scrapy.org/

http://www.crummy.com/software/BeautifulSoup/
http://code.google.com/p/html5lib/

Ну и поиск:
http://love-python.blogspot.com/2010/09/python-code-to-retrive-links-from-web.html
http://stackoverflow.com/questions/1080411/retrieve-links-from-web-page-using-python-and-beautiful-soup
http://pythonadventures.wordpress.com/2011/03/10/extract-all-links-from-a-web-page/
http://www.python-forum.org/pythonforum/viewtopic.php?f=5&t=10969
http://www.funnyduck.net/2010/01/python-get-links-from-page-matching.html
…

Не совсем то. На сколько я понял, эти решения делают список ссылок имеющихся на данной конкретной странице. А мне нужно решение, которое бы обходило все страницы сайта и возвращало список всех страниц сайта.

fata1ex · Июль 12, 2012 11:50:30

Dr.Livsi, во-первых, есть решения, которые ищут все ссылки на сайте. Во-вторых, если вы знаете, что такое рекурсия, то из вытаскивания ссылок с одной страницы желаемый вариант можно сделать за пару минут. И в-третьих, если вам всё это не подошло, есть первые две ссылки.

Ну и поисковик: ‘get/extract/retrieve links from site (page)’.

Dr.Livsi · Июль 12, 2012 12:28:27

fata1ex
Dr.Livsi, во-первых, есть решения, которые ищут все ссылки на сайте. Во-вторых, если вы знаете, что такое рекурсия, то из вытаскивания ссылок с одной страницы желаемый вариант можно сделать за пару минут. И в-третьих, если вам всё это не подошло, есть первые две ссылки.

Ну и поисковик: ‘get/extract/retrieve links from site (page)’.

Ok, буду смотреть внимательнее. Спасибо.

Python-сообщество

Уведомления

#1 Июль 12, 2012 09:49:50

инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта

#2 Июль 12, 2012 09:56:40

инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта

#3 Июль 12, 2012 10:06:12

инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта

#4 Июль 12, 2012 11:27:03

инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта

#5 Июль 12, 2012 11:50:30

инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта

#6 Июль 12, 2012 12:28:27

инструменты для получения массива внутренних ссылок сайта (со всех страниц) или Список всех страниц сайта

Board footer