Я использую tesseract OCR с python-tesseract. В tesseract FAQ, в отношении цифр, мы имеем:
Использование
TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");
ПЕРЕД вызовом функции Init или поместите это в текстовый файл, называемый tessdata/конфиги/цифры:
tessedit_char_whitelist 0123456789
а затем ваша командная строка будет выглядеть следующим образом:
tesseract image.tif outputbase nobatch digits
Предупреждение. До тех пор, пока старые и новые переменные конфигурации не будут объединены, вы должны также имеет параметр nobatch.
В python-tesseract существует метод SetVariable. Я пробовал это, но результат OCR тот же:
api = tesseract.TessBaseAPI()
api.SetVariable("tessedit_char_whitelist", "0123456789")
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)
Кто-нибудь уже получил эту работу, или я должен считать ее ошибкой в python-tesseract?