Подтвердить что ты не робот

Наборы данных для выполнения статистического анализа на

Какие базы данных существуют в Интернете, на которых я могу запустить статистический анализ?

4b9b3361

Ответ 1

Пакет datasets включен в базу R. Запустите эту команду, чтобы увидеть полный список:

library(help="datasets")

Кроме того, существует множество пакетов, которые могут извлекать данные и многие другие, содержащие важные данные. Из них вы можете начать с рассмотрения пакета HistData​​strong > , который "предоставляет набор небольших наборов данных которые интересны и важны в истории статистики и визуализации данных".

Для финансовых данных пакет quantmod предоставляет общий интерфейс для вытягивания данных временных рядов из google, yahoo, FRED и других:

library(quantmod)
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED 

FRED (Федеральная резервная система Сент-Луиса) действительно является наземной миной свободных экономических данных.

Многие пакеты R поставляются в комплекте с данными, характерными для их целей. Поэтому, если вас интересуют генетика, многоуровневые модели и т.д., Соответствующие пакеты часто будут иметь канонический пример для этого анализа. Кроме того, пакеты книг обычно поставляются с данными, необходимыми для воспроизведения всех примеров.

Вот несколько примеров соответствующих пакетов:

  • alr3: включает данные для сопровождения прикладной линейной регрессии (http://www.stat.umn.edu/alr)
  • arm: включает в себя некоторые данные из Gelman "Анализ данных с использованием регрессионных и многоуровневых/иерархических моделей" (остальные данные и код находится на веб-сайте книги)
  • BaM: включает данные из "Байесовских методов: подход к социальной и поведенческой науке"
  • BayesDA: включает данные Gelman "Анализ байесовских данных"
  • cat: включает данные для анализа наборов данных с категориальными переменными
  • cimis: от извлечения данных из CIMIS, Калифорнийской информационной системы управления орошением
  • cshapes: включает границы данных GIS и данные
  • ecdat: наборы данных для эконометрики
  • ElemStatLearn: включает данные из "Элементов статистического обучения, интеллектуального анализа данных, вывода и прогнозирования"
  • emdbook: данные из "Экологические модели и данные"
  • Fahrmeir: данные из книги "Многомерное статистическое моделирование на основе обобщенных линейных моделей"
  • fEcoFin: "Наборы экономических и финансовых данных" для Rmetrics
  • fds: функциональные наборы данных
  • fma: наборы данных из "Прогнозирование: методы и приложения"
  • gamair: данные для "Обобщенные аддитивные модели: введение с R"
  • geomapdata: данные для топографического и геологического отображения
  • nutshell: содержит все данные из книги "R в двух словах"
  • nytR: обеспечивает доступ к данным голосования в Конгрессе через API NY Times
  • openintro: данные из книги
  • primer: включает данные для "Праймера экологии с R"
  • qtlbook: включает данные для книги R/qtl
  • RGraphics: включает данные из книги "R Graphics"
  • Read.isi: доступ к старым данным Survey World Fertility Survey.

Ответ 2

Широкий выбор в Интернете. Например, здесь находится массивный каталог спортивные базы данных (все они предоставляют данные бесплатно, по крайней мере, мой опыт). В этом каталоге находится databaseBaseball.com, который содержит, помимо прочего, полные наборы данных для каждого игрока, который когда-либо играл в профессиональный бейсбол с 1915 года.

StatLib - еще один отличный ресурс - красиво удобный. Эта одиночная веб-страница содержит 4-5 строк из более чем ста баз данных, все из которых доступны в виде плоских файлов, просто щелкнув Ссылка "Таблица" в начале каждого свода данных.

Базовое распределение R поставляется предварительно упакованным с большой и разнообразной коллекцией данных (122 в R 2.10). Чтобы получить список из них (а также однострочное описание):

data(package="datasets")

Аналогично, большинство пакетов поставляется с несколькими наборами данных (иногда намного больше). Вы можете видеть их одинаково:

data(package="latticeExtra")
data(package="vcd")

Эти наборы данных - это те, которые указаны в руководствах по упаковке и виньетках для данного пакета и используются для иллюстрации функций пакета.

Несколько R-пакетов с большим количеством наборов данных (которые снова легко сканировать, поэтому вы можете выбрать то, что вам интересно): AER, DAAG и vcd.

Еще одна вещь, которую я нахожу настолько впечатляющей, что R - это ее ввод-вывод. Предположим, вы хотите получить некоторые конкретные финансовые данные через API финансов Yahoo. Пусть говорят о закрытии цены открытия и закрытия S & P 500 за каждый месяц с 2001 по 2009 год, просто выполните следующее:

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv")) 

В этой одной строке кода R вытащил данные тика, сформировал его в кадре данных и привязал его к 'tick_data'. (Здесь удобный чит-лист с символами API Yahoo Finance, используемыми для создания URL-адресов, как указано выше)

Ответ 3

Рассматривали ли вы Dump Dump Data Dumps?

Вы уже знакомы с тем, что представляют данные, то есть бизнес-логикой, которую он отслеживает.

Ответ 4

http://www.data.gov.uk/data

Недавно установил Тим Бернерс-Ли

Очевидно, данные, основанные на Великобритании, но это не имеет значения. Охватывает все: от заброшенных автомобилей до школьного абсентеизма до индексов цен на сельхозпродукцию

Ответ 5

Хорошим началом поиска экономических данных всегда являются следующие три адреса:

Хорошее резюме ссылок на набор данных для экономистов-разработчиков можно найти по адресу:

Edit:

Всемирный банк решил на прошлой неделе открыть много своих ранее несвободных наборов данных и опубликовал их в Интернете на своей пересмотренной домашней странице. Новый интернет-внешний вид тоже выглядит неплохо.

Ответ 6

http://www.data.gov/, возможно, есть что-то, что вы можете использовать.

В своем каталоге исходных данных вы можете установить свои критерии для данных и найти то, что ищете http://www.data.gov/catalog/raw p >

Ответ 8

Вы можете посмотреть

Ответ 9

Другим хорошим сайтом является Данные ООН.

Статистический отдел Организации Объединенных Наций (СОООН) Департамента по экономическим вопросам и социальных дел (ДЭСВ) новая интернет-служба передачи данных для глобальное сообщество пользователей. Это дает Статистические базы данных ООН в охват пользователей через одну запись point (http://data.un.org/). Пользователи могут теперь поиск и загрузка разнообразных статистические ресурсы ООН система.

Ответ 12

UC Irvine Machine Learning Repository имеет в настоящее время 190 наборов данных.

Реестр UCI для машинного обучения набор баз данных, домен теорий и генераторов данных, которые используемые сообществом машинного обучения для эмпирического анализа машины алгоритмов обучения.

Ответ 13

Подобно данным .gov, но европейский центр - евростат

http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

и есть также департамент статистики Китая, как указано Wildebeests

http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm

Затем есть некоторые "службы социальных данных", которые предлагают загрузку наборов данных, таких как поворотный, многоязычный, timetric, ckan, infochimps..

Ответ 14

Я видел на ваших других вопросах, что вы, по-видимому, заинтересованы в визуализации данных. Затем взгляните на много глаз (форма IBM) и образец набора данных.

Ответ 15

ФАО предлагает базу данных aquastat с данными с различными индикаторами, связанными с водой, которые различаются по странам.

Портал морской океанографии предлагает, например, Фракция Луны освещена.

В блоге "извилистая нормальность" список интересных источников данных.

Ответ 17

Здесь R пакет с несколькими сельскохозяйственными наборами данных из книг и документов. Пример анализа включал: agridat