Какие базы данных существуют в Интернете, на которых я могу запустить статистический анализ?
Наборы данных для выполнения статистического анализа на
Ответ 1
Пакет datasets
включен в базу R. Запустите эту команду, чтобы увидеть полный список:
library(help="datasets")
Кроме того, существует множество пакетов, которые могут извлекать данные и многие другие, содержащие важные данные. Из них вы можете начать с рассмотрения пакета HistDatastrong > , который "предоставляет набор небольших наборов данных которые интересны и важны в истории статистики и визуализации данных".
Для финансовых данных пакет quantmod
предоставляет общий интерфейс для вытягивания данных временных рядов из google, yahoo, FRED и других:
library(quantmod)
getSymbols("YHOO",src="google") # from google finance
getSymbols("GOOG",src="yahoo") # from yahoo finance
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED
FRED (Федеральная резервная система Сент-Луиса) действительно является наземной миной свободных экономических данных.
Многие пакеты R поставляются в комплекте с данными, характерными для их целей. Поэтому, если вас интересуют генетика, многоуровневые модели и т.д., Соответствующие пакеты часто будут иметь канонический пример для этого анализа. Кроме того, пакеты книг обычно поставляются с данными, необходимыми для воспроизведения всех примеров.
Вот несколько примеров соответствующих пакетов:
- alr3: включает данные для сопровождения прикладной линейной регрессии (http://www.stat.umn.edu/alr)
- arm: включает в себя некоторые данные из Gelman "Анализ данных с использованием регрессионных и многоуровневых/иерархических моделей" (остальные данные и код находится на веб-сайте книги)
- BaM: включает данные из "Байесовских методов: подход к социальной и поведенческой науке"
- BayesDA: включает данные Gelman "Анализ байесовских данных"
- cat: включает данные для анализа наборов данных с категориальными переменными
- cimis: от извлечения данных из CIMIS, Калифорнийской информационной системы управления орошением
- cshapes: включает границы данных GIS и данные
- ecdat: наборы данных для эконометрики
- ElemStatLearn: включает данные из "Элементов статистического обучения, интеллектуального анализа данных, вывода и прогнозирования"
- emdbook: данные из "Экологические модели и данные"
- Fahrmeir: данные из книги "Многомерное статистическое моделирование на основе обобщенных линейных моделей"
- fEcoFin: "Наборы экономических и финансовых данных" для Rmetrics
- fds: функциональные наборы данных
- fma: наборы данных из "Прогнозирование: методы и приложения"
- gamair: данные для "Обобщенные аддитивные модели: введение с R"
- geomapdata: данные для топографического и геологического отображения
- nutshell: содержит все данные из книги "R в двух словах"
- nytR: обеспечивает доступ к данным голосования в Конгрессе через API NY Times
- openintro: данные из книги
- primer: включает данные для "Праймера экологии с R"
- qtlbook: включает данные для книги R/qtl
- RGraphics: включает данные из книги "R Graphics"
- Read.isi: доступ к старым данным Survey World Fertility Survey.
Ответ 2
Широкий выбор в Интернете. Например, здесь находится массивный каталог спортивные базы данных (все они предоставляют данные бесплатно, по крайней мере, мой опыт). В этом каталоге находится databaseBaseball.com, который содержит, помимо прочего, полные наборы данных для каждого игрока, который когда-либо играл в профессиональный бейсбол с 1915 года.
StatLib - еще один отличный ресурс - красиво удобный. Эта одиночная веб-страница содержит 4-5 строк из более чем ста баз данных, все из которых доступны в виде плоских файлов, просто щелкнув Ссылка "Таблица" в начале каждого свода данных.
Базовое распределение R поставляется предварительно упакованным с большой и разнообразной коллекцией данных (122 в R 2.10). Чтобы получить список из них (а также однострочное описание):
data(package="datasets")
Аналогично, большинство пакетов поставляется с несколькими наборами данных (иногда намного больше). Вы можете видеть их одинаково:
data(package="latticeExtra")
data(package="vcd")
Эти наборы данных - это те, которые указаны в руководствах по упаковке и виньетках для данного пакета и используются для иллюстрации функций пакета.
Несколько R-пакетов с большим количеством наборов данных (которые снова легко сканировать, поэтому вы можете выбрать то, что вам интересно): AER, DAAG и vcd.
Еще одна вещь, которую я нахожу настолько впечатляющей, что R - это ее ввод-вывод. Предположим, вы хотите получить некоторые конкретные финансовые данные через API финансов Yahoo. Пусть говорят о закрытии цены открытия и закрытия S & P 500 за каждый месяц с 2001 по 2009 год, просто выполните следующее:
tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
"s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))
В этой одной строке кода R вытащил данные тика, сформировал его в кадре данных и привязал его к 'tick_data'. (Здесь удобный чит-лист с символами API Yahoo Finance, используемыми для создания URL-адресов, как указано выше)
Ответ 3
Рассматривали ли вы Dump Dump Data Dumps?
Вы уже знакомы с тем, что представляют данные, то есть бизнес-логикой, которую он отслеживает.
Ответ 4
Недавно установил Тим Бернерс-Ли
Очевидно, данные, основанные на Великобритании, но это не имеет значения. Охватывает все: от заброшенных автомобилей до школьного абсентеизма до индексов цен на сельхозпродукцию
Ответ 5
Хорошим началом поиска экономических данных всегда являются следующие три адреса:
- Всемирный банк - Наборы данных исследований
- IMF - данные и статистика
- Национальное бюро экономических исследований
Хорошее резюме ссылок на набор данных для экономистов-разработчиков можно найти по адресу:
Edit:
Всемирный банк решил на прошлой неделе открыть много своих ранее несвободных наборов данных и опубликовал их в Интернете на своей пересмотренной домашней странице. Новый интернет-внешний вид тоже выглядит неплохо.
Ответ 6
http://www.data.gov/, возможно, есть что-то, что вы можете использовать.
В своем каталоге исходных данных вы можете установить свои критерии для данных и найти то, что ищете http://www.data.gov/catalog/raw p >
Ответ 7
Пакет 268 небольших текстовых файлов (обработанные примеры "The R Book"
) можно найти в Сопутствующий сайт R Book.
Ответ 8
Ответ 9
Другим хорошим сайтом является Данные ООН.
Статистический отдел Организации Объединенных Наций (СОООН) Департамента по экономическим вопросам и социальных дел (ДЭСВ) новая интернет-служба передачи данных для глобальное сообщество пользователей. Это дает Статистические базы данных ООН в охват пользователей через одну запись point (http://data.un.org/). Пользователи могут теперь поиск и загрузка разнообразных статистические ресурсы ООН система.
Ответ 10
Сбор более 800 наборов данных в формате ARFF, которые были поняты Weka и другими пакетами анализа данных, собранными в TunedIT.org Repository.
Ответ 11
См. конкурс данных, созданный Хэдли Уикхэмом для Data Expo статистической статистики ASA и статистической графики. Конкурс закончился, данные все еще существуют.
Ответ 12
UC Irvine Machine Learning Repository имеет в настоящее время 190 наборов данных.
Реестр UCI для машинного обучения набор баз данных, домен теорий и генераторов данных, которые используемые сообществом машинного обучения для эмпирического анализа машины алгоритмов обучения.
Ответ 13
Подобно данным .gov, но европейский центр - евростат
http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database
и есть также департамент статистики Китая, как указано Wildebeests
http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm
Затем есть некоторые "службы социальных данных", которые предлагают загрузку наборов данных, таких как поворотный, многоязычный, timetric, ckan, infochimps..
Ответ 14
Я видел на ваших других вопросах, что вы, по-видимому, заинтересованы в визуализации данных. Затем взгляните на много глаз (форма IBM) и образец набора данных.
Ответ 15
ФАО предлагает базу данных aquastat с данными с различными индикаторами, связанными с водой, которые различаются по странам.
Портал морской океанографии предлагает, например, Фракция Луны освещена.
В блоге "извилистая нормальность" список интересных источников данных.
Ответ 16
Ответ 17
Здесь R пакет с несколькими сельскохозяйственными наборами данных из книг и документов. Пример анализа включал: agridat