Python-сообщество

Striver · Фев. 19, 2018 10:21:00

Используем у себя пакет textract для (почти) универсального преобразования различных форматов в голый текст (который в дальнейшем обрабатываем).
Для преобразования из новых вордовских форматов (.docx) textract уже внутри себя использует пакет docx2txt.
Так-то текст получается, НО…
Если в тексте были списки, то информация о их нумерации пропадает, остаётся только само содержание пунктов списка. Т.к. мы обрабатываем всякий юридический ужас (Уставы, Положения и пр.), то информация о номерах пунктов нам нужна.
Преобразователи из других форматов, используемые в textract (например, из .rtf, .doc) эту информацию не теряют.

Вопрос: существует ли какой-то способ конвертации без потери информации о номере?

doza_and · Фев. 19, 2018 20:45:28

Striver
существует ли какой-то способ

Вопрос непонятен
например
pandoc -s some.docx -o some.txt
Чем не способ?

Striver · Фев. 20, 2018 08:00:40

Спасибо!
pandoc подходит! Правда та версия, что у меня в CentOS 7 из пакета ставится (pandoc-1.12.3.1), формат docx не понимает, но если напрямую скачать с официального сайта бинарник последней версии, то всё хорошо.

На случай, если ещё у кого возникнет такой вопрос, вот команда:

 pandoc -s some.docx -t plain -o some.txt

Python-сообщество

Уведомления

#1 Фев. 19, 2018 10:21:00

Преобразование файлов docx в txt

#2 Фев. 19, 2018 20:45:28

Преобразование файлов docx в txt

#3 Фев. 20, 2018 08:00:40

Преобразование файлов docx в txt

Board footer