В интересах репликации мне нравится хранить кодовую книгу с метаданными для каждого фрейма данных. Кодовая книга данных:
письменный или компьютеризированный список, который обеспечивает четкое и полное описание переменных, которые будут включены в базу данных. Marczyk et al (2010)
Мне нравится документировать следующие атрибуты переменной:
- имя
- описание (метка, формат, масштаб и т.д.)
- источник (например, Всемирный банк)
- исходный носитель (URL-адрес и дата доступа, CD и ISBN или что-то еще)
- имя файла исходных данных на диске (помогает при слиянии кодовых книг)
- заметки
Например, это то, что я реализую для документирования переменных в массиве данных mydata1 с 8 переменными:
code.book.mydata1 <- data.frame(variable.name=c(names(mydata1)),
label=c("Label 1",
"State name",
"Personal identifier",
"Income per capita, thousand of US$, constant year 2000 prices",
"Unique id",
"Calendar year",
"blah",
"bah"),
source=rep("unknown",length(mydata1)),
source_media=rep("unknown",length(mydata1)),
filename = rep("unknown",length(mydata1)),
notes = rep("unknown",length(mydata1))
)
Я пишу другую кодовую книгу для каждого набора данных, который я читал. Когда я объединять кадры данных, я также объединим соответствующие аспекты их связанной кодовой книги, чтобы документировать окончательную базу данных. Я делаю это, по существу копируя вставку кода выше и изменяя аргументы.