Форум сайта python.su
Используем у себя пакет textract для (почти) универсального преобразования различных форматов в голый текст (который в дальнейшем обрабатываем).
Для преобразования из новых вордовских форматов (.docx) textract уже внутри себя использует пакет docx2txt.
Так-то текст получается, НО…
Если в тексте были списки, то информация о их нумерации пропадает, остаётся только само содержание пунктов списка. Т.к. мы обрабатываем всякий юридический ужас (Уставы, Положения и пр.), то информация о номерах пунктов нам нужна.
Преобразователи из других форматов, используемые в textract (например, из .rtf, .doc) эту информацию не теряют.
Вопрос: существует ли какой-то способ конвертации без потери информации о номере?
Офлайн
StriverВопрос непонятен
существует ли какой-то способ
Офлайн
Спасибо!
pandoc подходит! Правда та версия, что у меня в CentOS 7 из пакета ставится (pandoc-1.12.3.1), формат docx не понимает, но если напрямую скачать с официального сайта бинарник последней версии, то всё хорошо.
На случай, если ещё у кого возникнет такой вопрос, вот команда:
pandoc -s some.docx -t plain -o some.txt
Офлайн