Используем у себя пакет textract для (почти) универсального преобразования различных форматов в голый текст (который в дальнейшем обрабатываем).
Для преобразования из новых вордовских форматов (.docx) textract уже внутри себя использует пакет docx2txt.
Так-то текст получается, НО…
Если в тексте были списки, то информация о их нумерации пропадает, остаётся только само содержание пунктов списка. Т.к. мы обрабатываем всякий юридический ужас (Уставы, Положения и пр.), то информация о номерах пунктов нам нужна.
Преобразователи из других форматов, используемые в textract (например, из .rtf, .doc) эту информацию не теряют.
Вопрос: существует ли какой-то способ конвертации без потери информации о номере?