Форум сайта python.su
Всем доброго времени суток!
Для анализа сайта необходим инструмент, который бы анализировал весь сайт на предмет внутренних ссылок и выдавал в результате список этих самых ссылок. Т.е. результатом хотелось бы получить список всех страниц сайта, не требующих авторизации.
Не хотелось бы заново создавать велосипед. Возможно уже есть готовые решения на эту тему. Ткните носом, плиз.
Отредактировано Dr.Livsi (Июль 12, 2012 09:51:02)
Офлайн
http://grablib.org/
http://scrapy.org/
http://www.crummy.com/software/BeautifulSoup/
http://code.google.com/p/html5lib/
Ну и поиск:
http://love-python.blogspot.com/2010/09/python-code-to-retrive-links-from-web.html
http://stackoverflow.com/questions/1080411/retrieve-links-from-web-page-using-python-and-beautiful-soup
http://pythonadventures.wordpress.com/2011/03/10/extract-all-links-from-a-web-page/
http://www.python-forum.org/pythonforum/viewtopic.php?f=5&t=10969
http://www.funnyduck.net/2010/01/python-get-links-from-page-matching.html
…
Офлайн
fata1ex
http://grablib.org/
Ну и поиск:
http://love-python.blogspot.com/2010/09/python-code-to-retrive-links-from-web.html
http://stackoverflow.com/questions/1080411/retrieve-links-from-web-page-using-python-and-beautiful-soup
http://pythonadventures.wordpress.com/2011/03/10/extract-all-links-from-a-web-page/
http://www.python-forum.org/pythonforum/viewtopic.php?f=5&t=10969
http://www.funnyduck.net/2010/01/python-get-links-from-page-matching.html
…
Отредактировано Dr.Livsi (Июль 12, 2012 10:07:32)
Офлайн
fata1ex
http://grablib.org/
http://scrapy.org/
http://www.crummy.com/software/BeautifulSoup/
http://code.google.com/p/html5lib/
Ну и поиск:
http://love-python.blogspot.com/2010/09/python-code-to-retrive-links-from-web.html
http://stackoverflow.com/questions/1080411/retrieve-links-from-web-page-using-python-and-beautiful-soup
http://pythonadventures.wordpress.com/2011/03/10/extract-all-links-from-a-web-page/
http://www.python-forum.org/pythonforum/viewtopic.php?f=5&t=10969
http://www.funnyduck.net/2010/01/python-get-links-from-page-matching.html
…
Офлайн
Dr.Livsi, во-первых, есть решения, которые ищут все ссылки на сайте. Во-вторых, если вы знаете, что такое рекурсия, то из вытаскивания ссылок с одной страницы желаемый вариант можно сделать за пару минут. И в-третьих, если вам всё это не подошло, есть первые две ссылки.
Ну и поисковик: ‘get/extract/retrieve links from site (page)’.
Офлайн
fata1ex
Dr.Livsi, во-первых, есть решения, которые ищут все ссылки на сайте. Во-вторых, если вы знаете, что такое рекурсия, то из вытаскивания ссылок с одной страницы желаемый вариант можно сделать за пару минут. И в-третьих, если вам всё это не подошло, есть первые две ссылки.
Ну и поисковик: ‘get/extract/retrieve links from site (page)’.
Офлайн