Это то, над чем я работаю, и я хотел бы получить информацию от умных людей здесь, в StackOverflow.
То, что я пытаюсь, является функцией исправления текста на основе объединения различных плохих версий одной и той же текстовой страницы. В основном это можно использовать для объединения различных результатов распознавания текста в один с большей точностью, чем любой из них по отдельности.
Я начинаю со словаря из 600 000 английских слов, это почти все, включая юридические и медицинские термины и общие имена. У меня это уже есть.
Затем у меня есть 4 варианта текстового образца.
Что-то вроде этого:
$text[0] = 'Fir5t text sample is thisline';
$text[1] = 'Fir5t text Smplee is this line.';
$text[2] = 'First te*t sample i this l1ne.';
$text[3] = 'F i r st text s ample is this line.';
Я пытаюсь объединить вышеуказанное, чтобы получить вывод, который выглядит следующим образом:
$text = 'First text sample is this line.';
Не говорите мне, что это невозможно, потому что это, конечно, нет, просто очень сложно.
Я был бы очень признателен за любые идеи, которые кто-либо имеет к этому.
Спасибо!
Мои текущие мысли:
Просто проверка слов на словарях не будет работать, так как некоторые из них находятся не в том месте, и иногда слово не будет в словаре.
Основная проблема заключается в исправлении сломанных интервалов, после того как это исправлено, тогда наиболее часто встречающееся словарное слово может быть выбрано, если оно существует, или же наиболее часто встречающееся неядерное слово.