Мы часто работаем над проектом, где нам передан большой набор данных (скажем, несколько файлов по 1 ГБ каждый) и пишут код для его анализа.
Весь код анализа находится в Git, поэтому каждый может проверять изменения и выходы из нашего центрального хранилища. Но что делать с наборами данных, с которыми работает код?
Я хочу данные в репозитории:
- Когда пользователи сначала клонируют репозиторий, данные должны поступать с.
- Данные не на 100% доступны только для чтения; время от времени исправляется точка данных или происходит незначительное изменение форматирования. Если с данными происходят незначительные изменения, пользователи должны быть уведомлены при следующей проверке.
Однако мне не нужны данные в репозитории git:
- git клонирование запасной копии (поэтому у меня есть две версии в моем домашнем каталоге) вытащит несколько ГБ данных, которые у меня уже есть. Я бы предпочел либо иметь его в фиксированном месте [установить правило, что данные должны быть в ~/data], либо добавлять ссылки по мере необходимости.
- С данными в репозитории копирование на флэш-накопитель может быть невозможным, что раздражает, когда я просто работаю со сто строк кода.
- Если ошибочная точка данных исправлена, я больше не буду смотреть на ошибочную версию. Изменения в наборе данных можно отслеживать в текстовом файле или лицом, предоставившим данные (или просто не на всех).
Кажется, мне нужна настройка с основным репозиторием для кода и вспомогательным репозиторием для данных. Любые предложения или трюки для изящного выполнения этого, либо внутри git, либо в POSIX в целом? Все, о чем я думал, так или иначе является клочем.