Я только начал использовать Tesseract.
Я следую инструкциям здесь.
Я создал тестовое изображение следующим образом:
training/text2image --text=test.txt --outputbase=eng.Arial.exp0 --font='Arial' --fonts_dir=/usr/share/fonts
Теперь я хочу тренировать Tesseract следующим образом:
tesseract eng.Arial.exp0.tif eng.Arial.exp0 box.train
Вот результат, который у меня есть:
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Page 1
APPLY_BOXES:
Boxes read from boxfile: 112
Found 112 good blobs.
Generated training data for 21 words
Warning in pixReadMemTiff: tiff page 1 not found
Это предотвращает создание файла fontfile.tr
. Я попытался продолжить, игнорируя предупреждение, но при создании char -sets я получаю огромное содержание:
unicharset_extractor lang.fontname.exp0.box
"58
NULL 0 NULL 0
Joined 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0 # Joined [4a 6f 69 6e 65 64 ]
|Broken|0|1 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0 # Broken
T 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0 # T [54 ]
h 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0 # h [68 ]
e 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0 # e [65 ]
( 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0 # ( [28 ]
q 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0 # q [71 ]
u 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0 # u [75 ]
..."
Вот версия, которую я использую:
tesseract 3.04.00
leptonica-1.72
libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 : libtiff 4.0.3 : zlib 1.2.8
Любая идея, почему это происходит?