OCR: python-tesseract OCR: только цифры - программирование

Я использую tesseract OCR с python-tesseract. В tesseract FAQ, в отношении цифр, мы имеем:

Использование

TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");

ПЕРЕД вызовом функции Init или поместите это в текстовый файл, называемый tessdata/конфиги/цифры:

tessedit_char_whitelist 0123456789

а затем ваша командная строка будет выглядеть следующим образом:

tesseract image.tif outputbase nobatch digits

Предупреждение. До тех пор, пока старые и новые переменные конфигурации не будут объединены, вы должны также имеет параметр nobatch.

В python-tesseract существует метод SetVariable. Я пробовал это, но результат OCR тот же:

api = tesseract.TessBaseAPI()
api.SetVariable("tessedit_char_whitelist", "0123456789")
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)

Кто-нибудь уже получил эту работу, или я должен считать ее ошибкой в python-tesseract?

Ответ 1