Форум сайта python.su
У меня есть некоторое количество листов с напечатанными на них таблицами, некоторые данные из этих таблиц нужно внести в БД.
Вопрос в том, можно ли это как-то реализовать?
Я знаю, что вроде есть системы распознавания текста с изображения, просто вопрос в том, что данные в таблице содержатся и добавлять нужно не все, а по определённому условию.
Я сейчас хочу определиться возможно-ли это вообще?
Офлайн
d3z0x77+rsmqbcА какие сомнения? Наймите людей и они вам таблицы набъют. Распознавание конечно тоже возможно, но вполне вероятны ошибки. Если надо не все, напишете скрипт который выберет из всего то что вам надо.
возможно-ли это вообще
Отредактировано doza_and (Март 5, 2014 18:47:38)
Офлайн
doza_andТам тонна листов.
Наймите людей и они вам таблицы набъют.
doza_andВот у меня как раз вопрос можно будет или нет выбрать. Просто соль в том, что я не представляю в каком виде вернутся данные.
Если надо не все, напишете скрипт который выберет из всего то что вам надо.
Отредактировано d3z0x77+rsmqbc (Март 5, 2014 19:21:41)
Офлайн
Есть ли пример изображения?
Офлайн
Сейчас под рукой в сожалению нет. Ну в общих чертах, могу описать. На листе располагается таблица и несколько колонок, в первых двух идут кодовые номера (то есть несколько чисел тире и ещё числа), в других колонках просто числа.
Что ещё описать не знаю.
Офлайн
d3z0x77+rsmqbcНу в finereader можно скинуть текст или html
в каком виде вернутся данные
Офлайн
doza_and
Если использовать finereader, то вопрос в том, если ли к нему какие либо привязки у python, чтобы процесс распознавания автоматизировать.
Офлайн
d3z0x77+rsmqbc
doza_andЕсли использовать finereader, то вопрос в том, если ли к нему какие либо привязки у python, чтобы процесс распознавания автоматизировать.
Офлайн
Alen
doza_and
http://yadi.sk/d/ltzeU1WOK7atW
Вот пример документа который нужно распознать, пробовал распознавать finereader, он цифру 4 стабильно не понимает и распознает криво. И ещё другие некоторые символы тоже плохо понимает. Подскажите вот такой документ можно с обработать ocr и получить, хорошие результаты? Просто я подозреваю, что шрифт этот плохо распознается.
Отредактировано d3z0x77+rsmqbc (Март 7, 2014 13:09:27)
Офлайн
Шрифт обыкновенный ГОСТовский либо АСКОНовский (скорее всего) либо OpenGost.
Основные сложности масштаб и поворот. Необходимо создать базу изображений для всех символов шрифта, далее методом скользящего окна сравнивать предварительно бинаризованое изображение с образцами при ошибке меньше порогового уровня считать что символ распознан. Образцы желательно делать тоньше чем они есть на самом деле. Для борьбы с поворотом можно распознавать линии (например SimpleCV findLines) и учитывать угол их наклона, другой способ преобразовать образцы и тестируемое окно изображение к полярным координатам, что элиминирует повороты.
Работать будет медленно, потом можно будет оптимизировать.
Кстати это кусок спецификации от какой ракеты?
Офлайн