Я работаю над проектом прямо сейчас, где я медленно собираю кучу разных переменных из множества разных источников. Будучи несколько умным человеком, я создал другой подкаталог для каждого в основном каталоге "original_data" и включил файл .txt с URL-адресом и другими дескрипторами, откуда я получил данные. Будучи недостаточно умным человеком, эти .txt файлы не имеют структуры.
Теперь я столкнулся с задачей компиляции раздела методов, который документирует все разные источники данных. Я готов пройти и добавить структуру к данным, но тогда мне нужно будет найти или создать инструмент отчетности для сканирования в каталогах и извлечения информации.
Это похоже на то, что ProjectTemplate
уже было бы, но я не могу найти там эту функциональность.
Существует ли такой инструмент?
Если это не так, какие соображения следует принимать во внимание, чтобы обеспечить максимальную гибкость? Некоторые предварительные мысли:
- Следует использовать язык разметки (YAML?)
- Все подкаталоги должны сканироваться
- Чтобы облегчить (2), следует использовать стандартное расширение для дескриптора набора данных
- Критически, чтобы сделать это наиболее полезным, должен быть какой-то способ сопоставления дескрипторов переменных с именем, которое они в конечном итоге принимают. Поэтому любое переименование переменных должно выполняться в исходных файлах, а не на этапе очистки (меньше, чем идеальном), некоторый анализ кода должен выполняться механизмом документации для отслеживания изменений имен переменных (ugh!) Или некоторых следует использовать более простой гибрид, например, позволяющий указывать переменные переименования в файле разметки.
- В идеале также будет шаблонный шаблон (например, "Мы вытащили переменную [var] из набора данных [dset] в [date]." ) и, возможно, связаны с Sweave.
- Инструмент должен быть достаточно гибким, чтобы не быть чрезмерно обременительным. Это означает, что минимальная документация просто будет именем набора данных.