Эффективное сопоставление строк в Apache Spark

Используя инструмент OCR, я извлек тексты из скриншотов (около 1-5 предложений каждый). Однако при ручной проверке извлеченного текста я заметил несколько ошибок, которые возникают время от времени.

Учитывая текст "Привет, 😊! Мне очень нравится Spark ❤️!", я заметил, что:

1) Буквы типа "I", "!" и "l" заменяются на "|".

2) Emojis неправильно извлекаются и заменяются другими символами или не учитываются.

3) Пустое пространство время от времени удаляется.

В результате я мог бы получить строку вроде этого: "Привет, 7l | real | y, как Spark!"

Так как я пытаюсь сопоставить эту строку с набором данных, включая правильный текст (в этом случае "Hello there 😊! Мне очень нравится Spark ❤️!" ), я ищу эффективный способ сопоставления строки в Спарк.

Может ли кто-нибудь предложить эффективный алгоритм для Spark, который позволяет мне сравнивать тексты извлечения (~ 100 000) против моего набора данных (~ 100 миллионов)?

val query = Seq("Hello there 7l | real|y like Spark!").toDF("text") val db = Seq( "Hello there 😊! I really like Spark ❤️!", "Can anyone suggest an efficient algorithm" ).toDF("text") val model = pipeline.fit(db)

+--------------------+--------------------+------------------+ | datasetA| datasetB| distCol| +--------------------+--------------------+------------------+ |[Hello there 😊! ...|[Hello there 7l |...|0.5106382978723405| +--------------------+--------------------+------------------+

Ответ 1