Есть ли какие-нибудь хорошие двигатели с открытым исходным кодом для определения того, на каком языке находится текст, возможно, с метрикой вероятности? Один, который я могу запустить локально и не запрашивает Google или Bing? Я хотел бы определить язык для каждой страницы примерно на 15 миллионов страниц текста OCR.
Не все документы будут содержать языки, которые используют латинский алфавит.