Я хочу создать текстовый корпус из 100 миллионов твитов, используя пакет Rs распределенных вычислений tm (называемый tm.plugin.dc). Твиты хранятся в большой таблице MySQL на моем ноутбуке. Мой ноутбук устарел, поэтому я использую кластер Hadoop, который я установил на Amazon EC2.
Документация tm.plugin.dc из CRAN говорит, что в настоящее время поддерживается только DirSource. Документация, похоже, предполагает, что DirSource допускает только один документ для каждого файла. Мне нужен корпус для обработки каждого твита в качестве документа. У меня 100 миллионов твитов - это значит, что мне нужно сделать 100 миллионов файлов на моем старом ноутбуке? Это кажется чрезмерным. Есть ли лучший способ?
Что я пробовал до сих пор:
-
Сделать дамп файла таблицы MySQL как единый (массивный).sql файл. Загрузите файл на S3. Перенесите файл из S3 в кластер. Импортируйте файл в Hive с помощью инструмента Clouderas Sqoop. Что теперь? Я не могу понять, как заставить DirSource работать с Hive.
-
Сделайте каждый твит XML файл на моем ноутбуке. Но как? Мой компьютер старый и не может сделать это хорошо.... Если бы я мог пройти мимо этого, я бы: Загрузил все 100 миллионов XML файлов в папку в Amazons S3. Скопируйте папку S3 в кластер Hadoop. Point DirSource в папку.