Я создал коллекцию в MongoDB, состоящую из 11446615 документов.
Каждый документ имеет следующую форму:
{
"_id" : ObjectId("4e03dec7c3c365f574820835"),
"httpReferer" : "http://www.somewebsite.pl/art.php?id=13321&b=1",
"words" : ["SEX", "DRUGS", "ROCKNROLL", "WHATEVER"],
"howMany" : 3
}
httpReferer: только URL
слова: слова, проанализированные с помощью URL-адреса выше. Размер списка составляет от 15 до 90.
Я планирую использовать эту базу данных для получения списка веб-страниц, имеющих похожий контент.
Я запрошу этот сборник, используя поле words, чтобы я создал (или скорее начал создавать) индекс в этом поле:
db.my_coll.ensureIndex({words: 1})
Я начал создавать индекс около 3 часов назад, и похоже, что он не смог закончить еще через 3 часа.
Как увеличить скорость индексации? Или, может быть, я должен использовать совершенно другой подход к этой проблеме? Любые идеи приветствуются:)