Подтвердить что ты не робот

OCR: python-tesseract OCR: только цифры

Я использую tesseract OCR с python-tesseract. В tesseract FAQ, в отношении цифр, мы имеем:

Использование

TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");

ПЕРЕД вызовом функции Init или поместите это в текстовый файл, называемый tessdata/конфиги/цифры:

tessedit_char_whitelist 0123456789

а затем ваша командная строка будет выглядеть следующим образом:

tesseract image.tif outputbase nobatch digits

Предупреждение. До тех пор, пока старые и новые переменные конфигурации не будут объединены, вы должны также имеет параметр nobatch.

В python-tesseract существует метод SetVariable. Я пробовал это, но результат OCR тот же:

api = tesseract.TessBaseAPI()
api.SetVariable("tessedit_char_whitelist", "0123456789")
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)

Кто-нибудь уже получил эту работу, или я должен считать ее ошибкой в ​​python-tesseract?

4b9b3361

Ответ 1

ОК, он работает. В соответствии с этой (неофициальной?) Документацией tesseract-ocr, SetVariable() должен вызываться после Init(), хотя противоположность указана в официальный FAQ. Вызов его после Init() работает по назначению.