Признание языка короткого текста?

У меня есть список статей, и каждая статья имеет свое название и описание. К сожалению, из источников, которые я использую, нет способа узнать, на каком языке они написаны.

Кроме того, текст написан не полностью на одном языке; почти всегда присутствуют английские слова.

Я считаю, что мне нужны словарные базы, хранящиеся на моей машине, но это кажется немного непрактичным. Что бы вы мне посоветовали?

Ответ 1

Я бы использовал проект guess-language.

Изменить: теперь в Bitbucket

Ответ 2

Вы просмотрели http://ling.unizd.hr/~dcavar/LID/ и http://en.wikipedia.org/wiki/Language_identification?

Ответ 3

Вы можете попробовать API Google AJAX Language, если вы не против использовать веб-службу, чтобы сделать вашу работу за вас.

Ответ 4

В общем, вы смотрите на идентификацию nGram. Поскольку это вопрос python, вы можете взглянуть на http://github.com/koblas/ngramj-python, который является чистым портом python библиотеки java ngram (другой открытый исходный проект).

Документация отсутствует, но она имеет очень хорошую точность.

Ответ 5

Если рекомендация neos также непрактична, я бы попробовал что-то вроде этого:

Во многих языках есть несколько ключевых слов, которые содержатся во многих предложениях и часто не встречаются на других языках.

Пример: "The" на английском, "der", "die", "das" на немецком языке,...

Найдите такие слова и попытайтесь найти их в своих текстах. В конце концов, это может быть немного нечетким - например, когда вы найдете "the" и "der" - это может быть немецкий текст, содержащий некоторые английские предложения. По крайней мере, с достаточным количеством слов с ваших целевых языков вы можете достичь высокой скорости.

Ответ 6

Я знаю, что это старый вопрос, но в случае, если люди сталкиваются с этим, исследуя варианты этой задачи, стоит упомянуть, что другой инструмент langid.