Подтвердить что ты не робот

Бесплатные большие наборы данных для экспериментов с Hadoop

Знаете ли вы какие-либо большие наборы данных для экспериментов с Hadoop, которые являются бесплатными/недорогими? Любые ссылки/ссылки связаны с оценкой.

Prefernce:

  • По меньшей мере один ГБ данных.

  • Данные журнала производства веб-сервера.

Немногие из них, которые я нашел до сих пор:

Также мы можем запустить наш собственный искатель для сбора данных с сайтов, например. Википедия? Любые указатели на то, как это сделать, также ценятся.

4b9b3361

Ответ 1

Несколько вопросов о вашем вопросе о сканировании и википедии.

Вы связались с дампами данных wikipedia, и вы можете использовать Cloud9 от UMD для работы с этими данными в Hadoop.

У них есть страница об этом: Работа с Википедии

Еще один источник данных, который нужно добавить в список:

  • ClueWeb09 - 1 миллиард веб-страниц, собранных между январем и февралем 09. Сжатие 5TB.

Использование искателя для генерации данных должно быть опубликовано в отдельном вопросе на вопрос о Hadoop/MapReduce, я бы сказал.

Ответ 3

Это набор из 189 наборов данных для машинного обучения (который является одним из самых приятных приложений для hadoop g): http://archive.ics.uci.edu/ml/datasets.html