Я работаю над оцифровкой большой коллекции отсканированных документов, работая с Tesseract 3 в качестве моего механизма OCR. Качество его вывода посредственное, так как оно часто выдает как символы мусора до, так и после фактического текста, и опечатки в тексте.
Для первой проблемы кажется, что должны быть стратегии для определения того, какой текст на самом деле является текстом, а какой текст нет (большая часть этого текста - это имена людей, поэтому я ищу решения, отличные от поиска слова в словаре).
Для проблемы с типовыми вариантами большинство ошибок связаны с несколькими ошибочными буквами (например, подставляя l
, 1
и I
), и, похоже, должны быть методы для угадывая, какие слова написаны с ошибками (так как не слишком много слов на английском языке имеют "1" в середине их) и угадывают, что такое соответствующая коррекция.
Каковы лучшие практики в этом пространстве? Существуют ли свободные/с открытым исходным кодом реализации алгоритмов, которые делают такие вещи? Google дал много бумаг, но не много конкретных. Если нет доступных реализаций, какая из многих статей будет хорошим отправным местом?