Во-первых, обратите внимание, что меня интересует, как это работает, и я не собираюсь создавать его для клиента и т.д., так как я уверен, что уже могут быть реализации с открытым исходным кодом.
Как работают алгоритмы, которые обнаруживают плагиат в загруженном тексте? Использует ли он регулярное выражение для отправки всех слов в индекс, выделяет известные слова типа "the", "a" и т.д., А затем видит, сколько слов одинаково в разных эссе? Есть ли у них волшебное количество одинаковых слов, которые обозначают его как возможный дубликат? Использует ли он levenshtein()?
Мой язык выбора - PHP.
UPDATE
Я собираюсь не проверять плагиат во всем мире, но, скорее, скажу в 30 загруженных эссе из класса. В случае, если учащиеся собрались вместе с назначением строго одного человека.
Вот онлайн-сайт, который утверждает, что делает это: http://www.plagiarism.org/