Подтвердить что ты не робот

Tesseract не распознает отдельные символы

Как представить:

  • Создайте новое изображение с краской (любой размер)
  • Добавить письмо A к этому изображению
  • Попробуйте распознать → tesseract не найдет никаких букв
  • Скопируйте эту букву 5-6 раз к этому изображению
  • Попробуйте распознать → tesseract найдет все буквы

Почему?

4b9b3361

Ответ 1

Вы должны установить "режим сегментации страницы" на "одиночный char".

Например, в Android вы делаете следующее:

api.setPageSegMode(TessBaseAPI.pageSegMode.PSM_SINGLE_CHAR);

Ответ 2

Вам нужно настроить режим сегментации страницы Tesseract на "одиночный символ".

Ответ 3

Вы видели это?

https://code.google.com/p/tesseract-ocr/issues/detail?id=581

Список ошибок показывает это как "больше не проблема".

  • Обязательно иметь изображения с высоким разрешением.
  • Если вы изменяете размер изображения, обязательно сохраняйте высокий DPI и не изменяйте его слишком мало.
  • Обязательно тренировать систему tesseract
  • используйте код baseApi.setVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"); перед init Tesseract
  • Кроме того, вы можете посмотреть какой шрифт использовать с OCR