Я пытаюсь использовать модуль python-docx
(pip install python-docx
)
но это кажется очень запутанным, поскольку в тестовом примере github repo они используют функцию opendocx
, но в readthedocs они используют класс Document
. Даже они только показывают, как добавить текст в файл docx, не читающий существующий?
1-й (opendocx
) не работает, может быть устаревшим. Во втором случае я пытался использовать:
from docx import Document
document = Document('test_doc.docx')
print document.paragraphs
Он вернул список <docx.text.Paragraph object at 0x... >
Тогда я сделал:
for p in document.paragraphs:
print p.text
Он вернул весь текст, но его было мало. Все URL-адреса (CTRL + CLICK, чтобы перейти к URL-адресу) не присутствовали в тексте на консоли.
В чем проблема? Почему URL-адреса отсутствуют?
Как я могу получить полный текст без повторения цикла (что-то вроде open().read()
)