Подтвердить что ты не робот

Большие наборы данных

Я всегда ищу большие наборы данных для тестирования различных типов программ. У кого-нибудь есть предложения?

4b9b3361

Ответ 1

Посмотрите конкурс netflix. Я считаю, что они предоставили свою базу данных или большое подмножество для облегчения конкурса.

UPDATE: Их faq говорит, что у них есть 100 миллионов записей в подмножестве, который вы можете скачать.

Ответ 2

Возможно, вам стоит взглянуть на данные Американской статистической ассоциации данные expo - это данные по полёту для всех коммерческих рейсов в США за последние 20 лет - 120 миллионов записей, 11 гигабайт данных.

Ответ 3

Я немного поработал с наборами Wikimedia, которые представляют собой огромные XML файлы. К сожалению, на их сервере загрузки в настоящее время возникают проблемы с дисковым пространством, поэтому многие из наборов данных недоступны. Но когда это доступно, все английские данные в Википедии, установленные с полной историей, составляют 2,8 ТБ (сжатие 18 ГБ).

Ответ 4

Число del.icio.us пользователей (включая меня) тегов, которые содержат общедоступные данные, используя тег publicdata. Вы можете найти этот архив здесь и подписаться на канал RSS для этого тега . Подпишитесь на канал, и вы увидите постоянный поток интересных наборов данных, которые появляются в Интернете.

Не все эти наборы данных большие, но они часто интересны.

Ответ 5

Возможно, вы захотите просмотреть произвольные данные для Fuzz Testing. Это даст вам практически неограниченное количество тестовых данных, и вы, скорее всего, столкнетесь с крайними случаями.

Может быть, какая-то дополнительная информация о том, какие данные теста вы хотите, в каком формате и для каких типов приложений?

Ответ 6

Я не знаю, какова ваша целевая платформа, но если вы разрабатываете базу данных MSSQL, просмотрите Visual Studio для профессионалов баз данных. Он имеет очень классную функцию, где он может генерировать данные для вашей схемы, используя план данных, который вы можете определить.

В Redgate также есть инструмент для создания данных, но я его не использовал.

Преимущество состоит в том, что вы можете создать план формирования данных и использовать его для заполнения базы данных с помощью согласованных больших объемов данных, которые могут быть настроены для проверки определенных областей вашей схемы.

Ответ 7

Вы также можете проверить theinfo от Aaron Swartz.

С сайта

Это сайт для больших наборов данных и люди, которые их любят: скребки и сканеры, которые их собирают, ученых и вундеркиндов, которые их обрабатывают, дизайнеров и художников, которые визуализировать их. Это место, где они могут обмениваться советами и трюками, разрабатывать и совместно использовать инструменты и начинают интегрировать их конкретные проектов.

Ответ 8

Если вы заинтересованы в персонализации типа данных, которые вы получаете, ознакомьтесь с Kimono Labs. Это программное обеспечение для веб-соскабливания, которое вы можете использовать для очистки любого сайта бесплатно без ограничения количества строк. Просто настройте API на нем (вы можете использовать их генератор url, чтобы очистить кучу URL-адресов одновременно), а затем используйте свой персональный набор данных как JSON, CSV или RSS.