Подтвердить что ты не робот

Как работает формат .doc?

Недавно я узнал о базовой структуре файла .docx(это специально структурированный zip-архив). Однако docx не формируется как документ.

Как работает файл doc? Каков формат файла, структура и т.д.

4b9b3361

Ответ 2

Это не прямой ответ на ваш вопрос, но я настоятельно рекомендую прочитать статью Джоэла Спольского, Почему форматы файлов Microsoft Office настолько сложны? (И некоторые обходные пути). Это даст вам некоторое представление о том, насколько сложным является формат .doc - и почему. Джоэл также дает очень простой обзор того, что представляет формат .doc:

Вы видите, что файлы Excel 97-2003 являются составными документами OLE, которые, по существу, являются файлами систем внутри одного файла. Это достаточно сложно, что вы должны прочитать еще 9 страниц спецификации, чтобы понять это. И эти "спецификации" больше похожи на данные C структур, чем мы традиционно считаем спецификацией. Это целый иерархический файл система.

(Цитата относится к файлам Excel, но она относится и к документам Word). Информационная статья и полезная для понимания того, почему файлы .docx и ODF структурированы и спроектированы гораздо логичнее, если их рассматривать с внешней точки зрения.

Ответ 3

Основная идея формата MS Word DOC - это OLE Compund Document, который, как уже писал Кибби, в основном представляет собой дамп памяти. Это очень сложный и запутанный способ хранения документов, но если вы когда-либо действительно врывались в приложение Word, вы узнаете, как безумно много его функций, и если вы использовали его в бизнес-настройке, у вас будет хорошая как он интегрируется с другими программами в серии Office.

В общем, OLE Compund Documents - это очень расширяемые структуры, которые позволяют собирать все виды данных в один файл и даже до некоторой степени обрабатывать данные, на которые не установлено приложение. Например, если вы вставляете объект Equation (из редактора уравнений MS) в документ, он хранится как под-объект, который похож на файл внутри файла, но этот объект не просто содержит данные, необходимые для редактора уравнений для редактирования и рендеринга, он также имеет общее представление растрового изображения (или метафайла, возможно), которое может быть отображено, хотя и не отредактировано, на машине без установленного редактора уравнений.

Вот почему, поскольку вам нужно будет прочитать спецификации, к которым уже привязаны другие люди;)

Если вам нужен простой выход для работы с файлами, убедитесь, что ваше программное обеспечение работает на компьютере под управлением Windows с установленным Word, затем используйте COM/OLE Automation для открытия и обработки документов. Тогда вам не придется беспокоиться о формате файла.

Ответ 4

Формат .doc довольно сложный. Как и в большинстве форматов Microsoft, он отражает долгую историю изменений между версиями и старой поддержкой. Они опубликовали его не так давно, поэтому, если вы хотите просмотреть его (и другие форматы pre-Office 2007), выбейте себя здесь.

Ответ 6

Там Microsoft Word.doc, а затем есть обычный текст .doc. Похоже, вы интересуетесь запатентованным форматом Microsoft.

От Wikipedia:

Формат DOC зависит от форматов Microsoft Office Word. В версиях Word до 97 использовался другой формат из версии Microsoft Word между 97 и 2003 годами.

Только в Word 2007 . docx, хотя и упакованный файл, не обязательно является архивом .zip. Это структурированный XML-документ.