Я работаю с большим набором данных платежных записей для моей клинической практики в течение 11 лет. Достаточно нескольких строк не хватает лечащего врача. Однако, используя некоторые правила, я могу их легко заполнить, но не знаю, как реализовать его в data.table под R. Я знаю, что в пакете zoo есть такие вещи, как na.locf
и самокалиброванное объединение данных. таблица. Примеры, которые я видел, слишком упрощены и не помогают мне.
Вот некоторые фиктивные данные, чтобы сориентировать вас (как текстовое представление dput ASCII)
structure(list(patient.first.name = structure(c(1L, 1L, 1L, 1L,
1L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L), .Label = c("John", "Kathy",
"Timothy"), class = "factor"), patient.last.name = structure(c(3L,
3L, 3L, 3L, 3L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L), .Label = c("Jones",
"Martinez", "Squeal"), class = "factor"), medical.record.nr = c(4563455,
4563455, 4563455, 4563455, 4563455, 2663775, 2663775, 2663775,
2663775, 2663775, 3330956, 3330956, 3330956, 3330956), date.of.service = c(39087,
39112, 39112, 39130, 39228, 39234, 39244, 39244, 39262, 39360,
39184, 39194, 39198, 39216), procedure.code = c(44750, 38995,
40125, 44720, 44729, 44750, 38995, 40125, 44720, 44729, 44750,
44729, 44729, 44729), diagnosis.code.1 = c(456.87, 456.87, 456.87,
456.87, 456.87, 521.37, 521.37, 521.37, 521.37, 356.36, 456.87,
456.87, 456.87, 456.87), diagnosis.code.2 = c(413, 413, 413,
413, 413, 532.23, NA, NA, NA, NA, NA, NA, NA, NA), referring.doctor.first = structure(c(1L,
1L, 1L, 1L, 1L, 2L, 2L, 2L, NA, NA, NA, 1L, 1L, NA), .Label = c("Abe",
"Mark"), class = "factor"), referring.doctor.last = structure(c(1L,
1L, 1L, 1L, 1L, 2L, 2L, 2L, NA, NA, NA, 1L, 1L, NA), .Label = c("Newstead",
"Wydell"), class = "factor"), referring.docotor.zip = c(15209,
15209, 15209, 15209, 15209, 15222, 15222, 15222, NA, NA, NA,
15209, 15209, NA), some.other.stuff = structure(c(1L, 1L, 1L,
NA, 3L, NA, NA, 4L, NA, 6L, NA, 2L, 5L, NA), .Label = c("alkjkdkdio",
"cheerios", "ddddd", "dddddd", "dogs", "lkjljkkkkk"), class = "factor")), .Names = c("patient.first.name",
"patient.last.name", "medical.record.nr", "date.of.service",
"procedure.code", "diagnosis.code.1", "diagnosis.code.2", "referring.doctor.first",
"referring.doctor.last", "referring.docotor.zip", "some.other.stuff"
), row.names = c(NA, 14L), class = "data.frame")
Очевидным решением является использование какого-то алгоритма последнего наблюдения, перенесенного вперед (LOCF) на referring.doctor.last и referring.doctor.first. Однако он должен остановиться, когда он попадает к новому пациенту. Другими словами, LOCF должен применяться только к одному пациенту, который идентифицируется комбинацией пациента. Первое имя, patient.last.name, medical.record.nr. Также обратите внимание на то, как некоторые пациенты упускают врача-референта при первом же посещении, поэтому это означает, что некоторые наблюдения должны быть перенесены назад. Чтобы усложнить ситуацию, некоторые пациенты меняют врачей первичной медико-санитарной помощи, поэтому раньше может быть один врач-референт, а другой - позже. Следовательно, alogorithm должен знать порядок дат строк с отсутствующими значениями.
В зоопарке na.locf
Я не вижу простого способа группировать LOCF на пациента. Примеры скользящего соединения, которые я видел, не будут работать здесь, потому что я не могу просто вынуть строки с отсутствующей информацией referring.doctor, так как тогда я потерял бы дату. Of.service и procedure.code и т.д. Мне бы очень хотелось узнать, как R может заполнить мои недостающие данные.