Подтвердить что ты не робот

Каков идеальный шрифт для OCR?

Есть ли у кого-нибудь опыт работы с разными шрифтами для OCR? Я генерирую идентификатор, а затем пытаюсь отсканировать его с помощью tesseract. На данный момент я просто T & E'n разные шрифты, но это кажется довольно неэффективным. Я пробовал семейство шрифтов OCR * и других других, таких как Arial и Georgia. Тессеракт имеет тенденцию путаться с шрифтами OCR *.

Есть ли шрифт, специально предназначенный для tesseract, или любой системный шрифт, который хорошо работает с ним?

4b9b3361

Ответ 1

Хорошо, поиск в google приходит к этому, конкретному шрифту OCR: OCR Font

Похоже, это стандарт, принятый в 1973 году.

Ответ 2

Попробовав множество разных шрифтов и движка OCR, я получаю лучшие результаты, используя Consolas. Это моноширинный шрифт, такой как OCR-A, но легче читать для людей. Консола входит в состав нескольких продуктов Microsoft.

Существует также шрифт с открытым исходным кодом Inconsolata, на который влияет Консолас. Inconsolata - хорошая замена для Consolas, особенно учитывая детали лицензирования.

В моих тестах числа и пробелы в Calibri шрифте не всегда были правильно распознаны. OCR-A дал много ошибок при чтении. Я не давал MIRC попробовать, так как это нелегко прочитать для большинства людей.

Примечание: tesseract требует много тестирования и тонкой настройки перед надежностью. В нашем случае мы перешли на коммерчески лицензированный OCR-движок (ABBYY), особенно потому, что надежность была очень важна, и нам нужно было поддерживать несколько (европейских) языков.

Обновление: 2017 31 января - Изменено "на основе Consolas" на "под влиянием Consolas" из-за потенциальных проблем с авторскими правами.

Ответ 3

Я считаю, что Calibri работает лучше для меня. Мы ежедневно используем программное обеспечение OCR в автоматизированной системе и после тестирования десятков шрифтов (в том числе некоторых специфических OCR), что Calibri всегда лучше всех.

Удачи.

Ответ 4

Я бы, вероятно, использовал тот же шрифт, который банки используют для номеров маршрутизации в нижней части чеков:

http://morovia.com/font/micr.asp

Он был специально разработан, чтобы быть однозначно машиночитаемым.

Ответ 5

У меня всегда был успех, просто используя времена, новые романы..

Ответ 6

В последнее время я провел обширное тестирование в ECM под названием Laserfiche, в котором используется Nuance OmniPage, и я обнаружил, что моноширинные шрифты работают плохо по сравнению с динамически разнесенными шрифтами. Эти старые шрифты OCR не работают, а также более "нормальные" шрифты. Особенно для строк чисел при меньших размерах шрифта, таких как точка 12.

Странно, что кто-то еще добивается успеха с Калибри. Это было очень плохо в моих тестах, регулярно получая похожие письма и цифры, смущенные друг для друга. Лучшие шрифты (среди тех, которые поставляются на компьютере под управлением Windows с установленным Office) были Consolas, Verdana и Book Antiqua. Все динамические шрифты с засечками, в которых буквы и цифры выглядели отчетливо. Консолас был чемпионом.

Ответ 7

В настоящее время используется Monospace. Пробовал очень много шрифтов, но это самый точный для меня.