Подтвердить что ты не робот

Википедия скачать текст

Я ищу, чтобы загрузить полный текст Википедии для моего проекта колледжа. Должен ли я писать свой собственный паук, чтобы загрузить его или есть публичный набор данных из Википедии, доступный в Интернете?

Чтобы просто дать вам несколько обзоров моего проекта, я хочу узнать интересные слова из нескольких статей, которые меня интересуют. Но чтобы найти эти интересные слова, я планирую применить tf/idf для вычисления частоты членов для каждого слова и выбрать те с высокой частотой. Но для вычисления tf мне нужно знать общие вхождения во всей Википедии.

Как это можно сделать?

4b9b3361

Ответ 1

из wikipedia: http://en.wikipedia.org/wiki/Wikipedia_database

Википедия предлагает бесплатные копии всего доступного контента заинтересованным пользователям. Эти базы данных могут использоваться для зеркалирования, личного использования, неформальных резервных копий, автономного использования или запросов к базе данных (например, для Википедии: Техническое обслуживание). Весь текстовый контент является многолицензионным в соответствии с лицензией Creative Commons Attribution-ShareAlike 3.0 (CC-BY-SA) и лицензией бесплатной документации GNU (GFDL). Изображения и другие файлы доступны в разных терминах, как описано на их страницах описания. Наши советы по соблюдению этих лицензий см. В Википедии: Авторские права.

Кажется, вам тоже повезло. Из раздела дампа:

По состоянию на 12 марта 2010 года последний полный дамп англоязычной Википедии можно найти по адресу http://download.wikimedia.org/enwiki/20100130/ Это первый полный дамп англоязычной Википедии, созданный с 2008 года. Обратите внимание, что более поздние дампы (например, дамп 20100312) являются неполными.

Таким образом, данные всего 9 дней:)

Ответ 2

Если вам нужна текстовая версия, а не XML MediaWiki, вы можете скачать ее здесь: http://kopiwiki.dsd.sztaki.hu/

Ответ 3

Учитывая размер дампа, вам, вероятно, лучше будет пользоваться частота слов на английском языке или использовать MediaWiki API опросить страницы в случайном порядке (или на страницах, наиболее часто используемых). Существуют фреймворки для создания ботов на основе этого API (в Ruby, С#,...), которые могут вам помочь.