Загрузка больших данных для Hadoop

Мне нужны большие данные (более 10 ГБ) для запуска демонстрации Hadoop. Кто-нибудь знал, где я могу скачать его. Пожалуйста, дайте мне знать.

Ответ 1

Я предлагаю вам загрузить миллион песен Dataset со следующего веб-сайта:

http://labrosa.ee.columbia.edu/millionsong/

Лучшая вещь с набором данных Millions Songs - это то, что вы можете загрузить 1 ГБ (около 10000 песен), 10 ГБ, 50 ГБ или около 300 ГБ данных в свой кластер Hadoop и выполнить любой тест, который вы хотите. Мне нравится использовать его и многому научиться с помощью этого набора данных.

Для начала вы можете загрузить набор данных с любой буквы A-Z, которая будет варьироваться от 1 до 20 ГБ. Вы также можете использовать сайт Infochimp:

http://www.infochimps.com/collections/million-songs

В одном из моих следующих блогах я показал, как загрузить 1GB-набор данных и запустить скрипты Pig:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx

Ответ 2

Том Уайт упомянул о примерных данных о погоде в своей книге (Hadoop: окончательное руководство).

http://hadoopbook.com/code.html

Данные доступны более 100 лет.

Я использовал wget в linux, чтобы вытащить данные. Для самого 2007 года размер данных составляет 27 ГБ.

Он размещается как ссылка FTP. Таким образом, вы можете загрузить с помощью любой утилиты FTP.

ftp://ftp.ncdc.noaa.gov/pub/data/noaa/

Для получения полной информации, пожалуйста, просмотрите мой блог:

http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html

Ответ 3

На Amazon имеются общедоступные наборы данных:
http://aws.amazon.com/publicdatasets/
Я бы предложил рассмотреть возможность запуска демо-кластера и, таким образом, сохранить загрузку.
Существует также хороший набор данных из переполненной сети из Common Crawl, который также доступен на amazon s3. http://commoncrawl.org/

Ответ 4

Статья, которая может вас заинтересовать, Использование Hadoop для анализа всех файлов дампа Wikipedia с использованием WikiHadoop.

Если вы после статистики просмотров страницы Википедии, то this может помочь. Вы можете загружать файлы pagecount с 2007 года до текущей даты. Просто, чтобы дать представление о размере файлов, 1,9 ГБ за один день (здесь я выбрал 2012-05-01), распространяемый по 24 файлам.

В настоящее время в 31 стране есть сайты, которые предоставляют общедоступные данные в различных форматах, http://www.data.gov/opendatasites. Кроме того, Всемирный банк предоставляет имеющиеся данные в http://data.worldbank.org/data-catalog

Ответ 5

Как насчет "Интернет-переписи 2012", данные, собранные распределенным сканированием по всему Интернету:

Объявление: http://seclists.org/fulldisclosure/2013/Mar/166

Данные: http://internetcensus2012.bitbucket.org/

Все данные 7TB (очевидно) доступны только торрентом.

Ответ 6

Если вас интересуют показатели стран, лучшим источником я нашел worldbank.org. Данные, которые они предлагают, могут быть экспортированы как CSV, что упрощает работу с Hadoop. Если вы используете .NET, я написал blogpost http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html, где вы можете увидеть, как выглядят данные, и если вы загрузите код из ghhhub https://github.com/ryan-popa/Hadoop-Analysis, у вас уже есть методы синтаксического анализа строк.

Ответ 7

Возможно, быстрее генерировать данные, чем загружать их и выставлять. Это имеет то преимущество, что дает вам контроль над проблемным доменом и позволяет вашему демо значит что-то для людей, которые смотрят.