Подтвердить что ты не робот

Чтение файлов композитного документа V2 Документ (.msg) в ubuntu

У меня есть большой дамп данных из учетной записи электронной почты Outlook, которая полностью входит в файлы .msg. Быстрый вызов метода файла ubuntu показал, что они являются документами Document Document V2 (независимо от того, что это означает). Мне бы очень хотелось иметь возможность читать эти файлы в виде открытого текста. Возможно ли это вообще?

Обновление. Оказывается, было невозможно полностью сделать то, что я хотел для крупномасштабного интеллектуального анализа данных на таких файлах, которые были обломками. Если вы столкнулись с той же проблемой, я создал библиотеку для решения этой проблемы. https://github.com/Slater-Victoroff/msgReader

Документация невелика, но это довольно маленькая библиотека, поэтому она должна быть понятной.

4b9b3361

Ответ 1

Сегодня я столкнулся с той же проблемой. Я не нашел никакой информации о формате файла, но было возможно извлечь необходимую информацию из файла с помощью строк и grep:

strings -e l *.msg | grep pattern

The -e l (что маленький L) преобразуется из UTF-16.

Это будет работать, только если вы можете grep данные, которые вам нужны из файла (т.е. все обязательные строки содержат стандартную строку или шаблон).