Python-сообщество

info · Июнь 27, 2015 18:02:33

Использую для этого метод text_content() из lxml, но в некоторых местах (<br>, <ul>) пара предложений слепляется в одно предложение и разделить их с помощь, например, nltk не представляется возможным(?). Вопрос – как можно получить текст в том виде, в котором он виден с html в плане, хотя бы, разделения по абзацам/предложениям?

terabayt · Июнь 27, 2015 20:21:15

>>> from lxml import html
>>> s = """
... <html>
... <body>
... la-la<br>newline
... </body>
... </html>
... """
>>> s = html.fromstring(s)
>>> for br in s.xpath("*//br"):
...     br.tail = "\n" + br.tail if br.tail else "\n"
... 
>>> print s.text_content().strip()
la-la
newline

————————————————
-*- Simple is better than complex -*-

info · Июнь 27, 2015 20:54:24

terabayt

Кроме br еще много чего есть, все теги, что ли, перечислять руками?

info · Июнь 27, 2015 20:57:41

Хотелось бы решения по-универсальнее, если такое есть.

terabayt · Июнь 27, 2015 22:08:59

info
Хотелось бы решения по-универсальнее, если такое есть.

не демаю что с с помощью lxml можно это сделать. он немного не для этого
вам нужно выводить форматированый текст
используйте html2text

>>> import html2text
>>> s = """
... <html>
... <body>
... la-la<br>newline<br/>hh
... </body>
... </html>
... """
>>> s = html2text.html2text(s)
>>> print s.strip()
la-la  
newline  
hh

————————————————
-*- Simple is better than complex -*-

slav0nic · Июнь 29, 2015 11:58:47

https://github.com/codelucas/newspaper можно глянуть или подобные более продвинутые методы

tg : https://t.me/slav0nic

Python-сообщество

Уведомления

#1 Июнь 27, 2015 18:02:33

Выделение текста из html

#2 Июнь 27, 2015 20:21:15

Выделение текста из html

#3 Июнь 27, 2015 20:54:24

Выделение текста из html

#4 Июнь 27, 2015 20:57:41

Выделение текста из html

#5 Июнь 27, 2015 22:08:59

Выделение текста из html

#6 Июнь 29, 2015 11:58:47

Выделение текста из html

Board footer