"Добавление" новых шрифтов в Tesseract eng.traineddata

Насколько я знаю, Tesseract 3.x поставляется с 6 английскими (исправить меня, если я ошибаюсь) шрифтами. Мне нужно тренировать Tesseract для более 5 типов шрифтов. Мне нужны только заглавные буквы и цифры (никаких специальных символов или символов).

Я следил за различными процессами, например: Добавление новых шрифтов в Tesseract 3 OCR Engine

а также используемые инструменты для автоматизации процесса, например Тренер Serak Tesseract для Tesseract 3.02

Для создания файлов я использовал QT Box Editor

После использования вышеперечисленных инструментов я получаю файл eng.traineddata. Все учебные пособия говорят мне добавить этот файл eng.traineddata в папку Tesseract-OCR\tessdata, но при этом он заменит исходный файл eng.traineddata. После этого я потеряю шрифты по умолчанию, которые поставляются с Tesseract 3.x?

Как добавить новые шрифты? Мне все еще не ясно. Надеюсь, кто-то может мне помочь. Спасибо.

Ответ 1

Должно использовать другое имя, например, eng1.traineddata. Таким образом, вы можете использовать новые данные с оригинальным, указав опцию языка -l eng+eng1.

Ответ 2

Если у вас есть новые обучаемые данные с другим шрифтом, я думаю, что у вас нет коррекции словаря для вашего нового шрифта.

Чтобы добавить новые подготовленные данные, вы можете сделать это (я использую здесь PHP-код)

//  as you new trained data, it must be 3 letter prefix 
// what ever 3 letter you want
$languange = "eng+deu";
$settingLanguage = $tesseract -> setLanguage($language) ;

Увидев функцию tesseract.php setLanguage(), вы можете установить язык с помощью этой функции.