Python-сообщество

nuklea · Июнь 10, 2015 09:52:39

Пишу грабер на Scrapy. Понадобилось распознавать телефоны в изображении. Большинство телефонов отлично распознаются с помощью Tesseract с помощью такого кода:

def parse_phone(self, response):
    # todo: добавить контракт
    phone = Image.open(StringIO(response.body))
    phone.load()
    image = Image.new("RGB", phone.size, (255, 255, 255))
    image.paste(phone, mask=phone.split()[3])  # 3 is the alpha channel
    image = image.resize((image.size[0] * 4, image.size[1] * 4), Image.BICUBIC)
    l = response.meta['loader']
    l.add_value('author_phone', tesseract.image_to_string(image, builder=tesseract.DigitBuilder()))
    return l.load_item()

Но есть такие, которые на которых Tesseract сильно гонит по причине слипшихся символов. Особенно часто этим страдает “4” и “-” (смотри вложение). Мне же необходимо добиться 100% распознования номеров. Как посоветуете решать задачу, ребята?

Прикреплённый файлы:
all.png (217,3 KБ)

ih · Июнь 10, 2015 12:52:30

tz4678@gmail.com · Июнь 10, 2015 16:01:33

vanished

Отредактировано tz4678@gmail.com (Авг. 1, 2020 15:49:05)

Shaman · Июнь 10, 2015 22:40:31

Позиции символов фиксированы - можно на изображении просто вычистить тире. Так же можно порыться в настройках tesseract, или использовать другую ocr.

Отредактировано Shaman (Июнь 10, 2015 22:41:00)

Python-сообщество

Уведомления

#1 Июнь 10, 2015 09:52:39

vanished

#2 Июнь 10, 2015 12:52:30

vanished

#3 Июнь 10, 2015 16:01:33

vanished

#4 Июнь 10, 2015 22:40:31

vanished

Board footer