Предположим, что у нас есть текстовый файл с содержимым: "Je suis un beau homme..."
другой с: "Я храбрый человек"
третий с текстом на немецком языке: "Гуттен Морген. Ви-гет?"
Как написать функцию, которая сообщила бы нам: с такой вероятностью текст в первом файл находится на английском языке, во втором - французский и т.д.
Приветствуются ссылки на книги и готовые решения. Я пишу на Java, но при необходимости могу изучить Python.
Мои комментарии
- Есть один небольшой комментарий, который мне нужно добавить. Текст может содержать фразы на разных языках, как часть целого или в результате ошибки. В классической литературе у нас есть много примеров, потому что члены аристократии были многоязычны. Таким образом, вероятность лучше описывает ситуацию, так как большинство частей текста находятся на одном языке, а другие могут быть написаны в другом.
- API Google - подключение к Интернету. Я бы предпочел не использовать удаленные функции/службы, поскольку мне нужно сделать это самостоятельно или использовать загружаемую библиотеку. Я бы хотел провести исследование по этой теме.