Я беру некоторые классы ИИ и узнал о некоторых основных алгоритмах, с которыми я хочу поэкспериментировать. Я получил доступ к нескольким наборам данных, содержащим множество отличных реальных данных через Kaggle, на котором проводятся соревнования по анализу данных.
Я попытался ввести несколько соревнований, чтобы улучшить свои навыки машинного обучения, но не смог найти хороший способ доступа к данным в моем коде. Kaggle предоставляет один большой файл данных, 50-200 мб на соревнование в формате csv.
Каков наилучший способ загрузки и использования этих таблиц в моем коде? Мой первый инстинкт состоял в том, чтобы использовать базы данных, поэтому я попытался загрузить csv в sqlite одну базу данных, но это наложило огромную нагрузку на мой компьютер и во время коммитов, это было обычным делом для моего компьютера. Затем я попытался использовать сервер mysql на общем хосте, но выполнение запросов на нем потребовалось навсегда, и это сделало мой код анализа очень медленным. Плюс, я боюсь, что я превышу свою пропускную способность.
В моих классах до сих пор мои инструкторы обычно очищают данные и дают нам управляемые наборы данных, которые могут быть полностью загружены в ОЗУ. Очевидно, это невозможно для моих текущих интересов. Пожалуйста, предложите, как я должен действовать. В настоящее время я использую 4-летнюю macbook с 4-гигабайтным RAM и двухъядерным процессором 2.1 ГГц.
Кстати, я надеюсь сделать большую часть своего анализа на Python, так как я знаю этот язык лучше. Я бы хотел, чтобы решение позволяло мне делать все или почти все кодировки на этом языке.