Уведомления

Группа в Telegram: @pythonsu

#1 Окт. 10, 2018 15:52:12

BobkovS
Зарегистрирован: 2018-10-10
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Tesseract для обработки табличных документов

Приветствую всех. Проблема такая, столкнулся с задачей распознавания текста на изображении, содержащем таблицы(пример изображения приведен ниже) с дальнейшим занесением данных из каждой ячейке таблицы в базу. Есть ли какой то алгоритм действий для решения таких задач? На данный момент имеется только идея распознавать текст отдельно в каждой ячейке таблицы.

Прикреплённый файлы:
attachment 1328603821_okonchatelnaya11_150x150_p1-1-1024x646.jpg (127,3 KБ)

Офлайн

#2 Окт. 11, 2018 09:50:58

ZerG
Зарегистрирован: 2012-04-05
Сообщения: 2627
Репутация: +  61  -
Профиль   Отправить e-mail  

Tesseract для обработки табличных документов

Как вы правильно и сказали
https://pypi.org/project/pytesseract/

Однако - учитывая структуру картинки и задачу - думаю что количество ошибок будет очень большим.
И пихать в базу без проверки такие данные нельзя. А сверять только на глаз.



Влодение рускай арфаграфией - это как владение кунг-фу: настаящие мастира не преминяют ево бес ниабхадимости

Офлайн

#3 Окт. 11, 2018 09:50:58

ZerG
Зарегистрирован: 2012-04-05
Сообщения: 2627
Репутация: +  61  -
Профиль   Отправить e-mail  

Tesseract для обработки табличных документов

Как вы правильно и сказали
https://pypi.org/project/pytesseract/

Однако - учитывая структуру картинки и задачу - думаю что количество ошибок будет очень большим.
И пихать в базу без проверки такие данные нельзя. А сверять только на глаз.



Влодение рускай арфаграфией - это как владение кунг-фу: настаящие мастира не преминяют ево бес ниабхадимости

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version