Многие алгоритмы и библиотеки естественного языка (NLP) нелегко работают со случайными текстами из Интернета, как правило, потому что они предполагают чистое, четкое письмо. Я могу понять, почему это было бы проще, чем анализировать комментарии к YouTube.
Мой вопрос: с учетом случайного фрагмента текста, есть ли способ определить, хорошо ли написан этот текст и является ли подходящим кандидатом для использования в НЛП? Каково общее имя для этого алгоритма?
Мне бы понравились ссылки на статьи, алгоритмы или библиотеки кода, но я бы согласился на хорошие поисковые запросы.