Мне нужны большие данные (более 10 ГБ) для запуска демонстрации Hadoop. Кто-нибудь знал, где я могу скачать его. Пожалуйста, дайте мне знать.
Загрузка больших данных для Hadoop
Ответ 1
Я предлагаю вам загрузить миллион песен Dataset со следующего веб-сайта:
http://labrosa.ee.columbia.edu/millionsong/
Лучшая вещь с набором данных Millions Songs - это то, что вы можете загрузить 1 ГБ (около 10000 песен), 10 ГБ, 50 ГБ или около 300 ГБ данных в свой кластер Hadoop и выполнить любой тест, который вы хотите. Мне нравится использовать его и многому научиться с помощью этого набора данных.
Для начала вы можете загрузить набор данных с любой буквы A-Z, которая будет варьироваться от 1 до 20 ГБ. Вы также можете использовать сайт Infochimp:
http://www.infochimps.com/collections/million-songs
В одном из моих следующих блогах я показал, как загрузить 1GB-набор данных и запустить скрипты Pig:
Ответ 2
Том Уайт упомянул о примерных данных о погоде в своей книге (Hadoop: окончательное руководство). http://hadoopbook.com/code.html
Данные доступны более 100 лет.
Я использовал wget
в linux, чтобы вытащить данные. Для самого 2007 года размер данных составляет 27 ГБ.
Он размещается как ссылка FTP
. Таким образом, вы можете загрузить с помощью любой утилиты FTP.
ftp://ftp.ncdc.noaa.gov/pub/data/noaa/
Для получения полной информации, пожалуйста, просмотрите мой блог:
http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html
Ответ 3
На Amazon имеются общедоступные наборы данных:
http://aws.amazon.com/publicdatasets/
Я бы предложил рассмотреть возможность запуска демо-кластера и, таким образом, сохранить загрузку.
Существует также хороший набор данных из переполненной сети из Common Crawl, который также доступен на amazon s3. http://commoncrawl.org/
Ответ 4
Статья, которая может вас заинтересовать, Использование Hadoop для анализа всех файлов дампа Wikipedia с использованием WikiHadoop.
Если вы после статистики просмотров страницы Википедии, то this может помочь. Вы можете загружать файлы pagecount с 2007 года до текущей даты. Просто, чтобы дать представление о размере файлов, 1,9 ГБ за один день (здесь я выбрал 2012-05-01), распространяемый по 24 файлам.
В настоящее время в 31 стране есть сайты, которые предоставляют общедоступные данные в различных форматах, http://www.data.gov/opendatasites. Кроме того, Всемирный банк предоставляет имеющиеся данные в http://data.worldbank.org/data-catalog
Ответ 5
Как насчет "Интернет-переписи 2012", данные, собранные распределенным сканированием по всему Интернету:
Объявление: http://seclists.org/fulldisclosure/2013/Mar/166
Данные: http://internetcensus2012.bitbucket.org/
Все данные 7TB (очевидно) доступны только торрентом.
Ответ 6
Если вас интересуют показатели стран, лучшим источником я нашел worldbank.org. Данные, которые они предлагают, могут быть экспортированы как CSV, что упрощает работу с Hadoop. Если вы используете .NET, я написал blogpost http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html, где вы можете увидеть, как выглядят данные, и если вы загрузите код из ghhhub https://github.com/ryan-popa/Hadoop-Analysis, у вас уже есть методы синтаксического анализа строк.
Ответ 7
Возможно, быстрее генерировать данные, чем загружать их и выставлять. Это имеет то преимущество, что дает вам контроль над проблемным доменом и позволяет вашему демо значит что-то для людей, которые смотрят.