Я подумываю о подготовке word2vec по огромным крупномасштабным данным размером более 10 ТБ + по размеру на свалке веб-сканера.
Я лично тренировался с внедрением. Дамп GoogleNews-2012 (1.5gb) на моем iMac занял около 3 часов, чтобы тренировать и генерировать векторы (впечатленные скоростью). Я не пытался реализовать реализацию python, хотя:( Я где-то читал, что генерирующие векторы на wiki-dump (11gb) из 300 векторных длин занимают около 9 дней для генерации.
-
Как ускорить word2vec? Нужно ли мне использовать распределенные модели или какое оборудование мне нужно делать в течение 2-3 дней? У меня iMac с RAM 8gb.
-
Какой из них быстрее? Gensim python или реализация C?
Я вижу, что реализация word2vec не поддерживает обучение GPU.