Python-сообщество

savswsoft · Авг. 30, 2009 19:20:47

Всем привет,

Как по тегу “tag_name”:

<tag_name> some data </tag_name>

Получить “some data”???

Для примера, возьмем страницу: http://tycho.usno.navy.mil/cgi-bin/timer.pl

Саму страницу получил следующим образом:

import httplib2

h = httplib2.Http(".cache")

response, content = h.request('http://tycho.usno.navy.mil/cgi-bin/timer.pl')

html_file = content.decode("utf-8")
print(html_file)

пример страницы:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final"//EN>
<html>
<body>
<TITLE>What time is it?</TITLE>
<H2> US Naval Observatory Master Clock Time</H2> <H3><PRE>
<BR>Aug. 30, 15:48:31 UTC               Universal Time
<BR>Aug. 30, 11:48:31 AM EDT    Eastern Time
<BR>Aug. 30, 10:48:31 AM CDT    Central Time
<BR>Aug. 30, 09:48:31 AM MDT    Mountain Time
<BR>Aug. 30, 08:48:31 AM PDT    Pacific Time
<BR>Aug. 30, 07:48:31 AM AKDT   Alaska Time
<BR>Aug. 30, 05:48:31 AM HAST   Hawaii-Aleutian Time
</PRE></H3><P><A HREF="http://www.usno.navy.mil"> US Naval Observatory</A>

</body></html>

Если не сложно, приведите плиииз пример для “<TITLE>”

sypper-pit · Авг. 30, 2009 20:08:48

а что регулярные выражения отменили смотри_тут

savswsoft · Авг. 31, 2009 04:20:52

не понимаю как с помощью регулярных выражений найти то, что мне нужно
я понимаю, как найти шаблон какой то, но при поиске, например:

result = re.search('TITLE', html_file);
print(result.group(0))

я получаю ‘TITLE’

вы не могли бы пример показать? Эта же ветка форума для новичков:)

Striver · Авг. 31, 2009 08:09:54

result = re.search(r'(<TITLE>)(?P<nazvanie>.*?)(</TITLE>)', html_file);
print(result.group('nazvanie'))

как-то так… Смысл в том, что нужно найти не только слово ‘TITLE’, а всю подстроку, содержащуюю нужные данные, а потом из неё выцеплять нужное с помощью групп.

neo08 · Авг. 31, 2009 09:29:49

savswsoft
Если не сложно, приведите плиииз пример для “<TITLE>”

Існує такий html парсер як Beautiful Soup.
Але для того щоб він запрацював рядок <!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 3.2 Final”//EN> з твого прикладу треба видалити (чому? не знаю…)
І тоді приклад для title буде виглядати так

import BeautifulSoup
doc = """<html>
<body>
<TITLE>What time is it?</TITLE>
<H2> US Naval Observatory Master Clock Time</H2> <H3><PRE>
<BR>Aug. 30, 15:48:31 UTC               Universal Time
<BR>Aug. 30, 11:48:31 AM EDT    Eastern Time
<BR>Aug. 30, 10:48:31 AM CDT    Central Time
<BR>Aug. 30, 09:48:31 AM MDT    Mountain Time
<BR>Aug. 30, 08:48:31 AM PDT    Pacific Time
<BR>Aug. 30, 07:48:31 AM AKDT   Alaska Time
<BR>Aug. 30, 05:48:31 AM HAST   Hawaii-Aleutian Time
</PRE></H3><P><A HREF="http://www.usno.navy.mil"> US Naval Observatory</A>

</body></html>"""
soup = BeautifulSoup.BeautifulSoup(doc)
print soup.find('title')

<title>What time is it?</title>

Якщо хочеться виділити текст що між тегами
можна написати так

print soup.find('title').string

PS Наперід вибачаюсь якщо BeautifulSoup не працює в третьому пітоні, я тестував приклад на 2.6
Хоча на сайті BeautifulSoup писало що він сумісний з пітоном 3…
PSPS Для того щоб запустити мій приклад треба писати

print(soup.find('title').string)

Отредактировано (Авг. 31, 2009 09:37:13)

savswsoft · Авг. 31, 2009 09:58:42

прикольно так читать украинский коммент, из него ничего не понял, но за код спасиб:))

Enchantner · Авг. 31, 2009 16:01:40

savswsoft
рекомендую пощупать lxml (самый быстрый, биндинги к сишной библе) и вышеназванный BeautifulSoup. Да и в самом питоне кое-что есть - sax, например.

diam123 · Сен. 2, 2009 16:35:27

Если делать это на регулярках, то можно так:

import re
import urllib

def get_tag_data(tag, page):
    tags_data = re.findall(r"\<{tag}\>(.*?)\<\/{tag}\>".format(tag=tag), page)
    return tags_data

#Использовать так:
page = urllib.urlopen("http://www.google.com").read()
print (get_tag_data("TITLE", page))

Отредактировано (Сен. 2, 2009 16:39:51)

Python-сообщество

Уведомления

#1 Авг. 30, 2009 19:20:47

Python3 Как получить данные из html

#2 Авг. 30, 2009 20:08:48

Python3 Как получить данные из html

#3 Авг. 31, 2009 04:20:52

Python3 Как получить данные из html

#4 Авг. 31, 2009 08:09:54

Python3 Как получить данные из html

#5 Авг. 31, 2009 09:29:49

Python3 Как получить данные из html

#6 Авг. 31, 2009 09:58:42

Python3 Как получить данные из html

#7 Авг. 31, 2009 16:01:40

Python3 Как получить данные из html

#8 Сен. 2, 2009 16:35:27

Python3 Как получить данные из html

Board footer