Я ищу, чтобы загрузить полный текст Википедии для моего проекта колледжа. Должен ли я писать свой собственный паук, чтобы загрузить его или есть публичный набор данных из Википедии, доступный в Интернете?
Чтобы просто дать вам несколько обзоров моего проекта, я хочу узнать интересные слова из нескольких статей, которые меня интересуют. Но чтобы найти эти интересные слова, я планирую применить tf/idf для вычисления частоты членов для каждого слова и выбрать те с высокой частотой. Но для вычисления tf мне нужно знать общие вхождения во всей Википедии.
Как это можно сделать?