Знаете ли вы какие-либо большие наборы данных для экспериментов с Hadoop, которые являются бесплатными/недорогими? Любые ссылки/ссылки связаны с оценкой.
Prefernce:
-
По меньшей мере один ГБ данных.
-
Данные журнала производства веб-сервера.
Немногие из них, которые я нашел до сих пор:
Также мы можем запустить наш собственный искатель для сбора данных с сайтов, например. Википедия? Любые указатели на то, как это сделать, также ценятся.