С сайта word2vec я могу скачать GoogleNews-vectors-negative300.bin.gz. Файл .bin(около 3,4 ГБ) - это двоичный формат, который мне не пригодится. Томас Миколов уверяет нас в том, что "должно быть довольно просто преобразовать двоичный формат в текстовый формат (хотя это займет больше места на диске). Проверьте код на дистанционном инструменте, это довольно тривиально для чтения двоичного файла". К сожалению, я не знаю достаточно C, чтобы понять http://word2vec.googlecode.com/svn/trunk/distance.c.
Предположительно gensim может это сделать, но все обучающие материалы, которые я нашел, похоже, касаются преобразования текста, а не другого.
Может ли кто-нибудь предложить изменения кода C или инструкции по генерации текста gensim?