Используя инструмент OCR, я извлек тексты из скриншотов (около 1-5 предложений каждый). Однако при ручной проверке извлеченного текста я заметил несколько ошибок, которые возникают время от времени.
Учитывая текст "Привет, 😊! Мне очень нравится Spark ❤️!", я заметил, что:
1) Буквы типа "I", "!" и "l" заменяются на "|".
2) Emojis неправильно извлекаются и заменяются другими символами или не учитываются.
3) Пустое пространство время от времени удаляется.
В результате я мог бы получить строку вроде этого: "Привет, 7l | real | y, как Spark!"
Так как я пытаюсь сопоставить эту строку с набором данных, включая правильный текст (в этом случае "Hello there 😊! Мне очень нравится Spark ❤️!" ), я ищу эффективный способ сопоставления строки в Спарк.
Может ли кто-нибудь предложить эффективный алгоритм для Spark, который позволяет мне сравнивать тексты извлечения (~ 100 000) против моего набора данных (~ 100 миллионов)?