Я пытаюсь проанализировать файл, например: http://www.sec.gov/Archives/edgar/data/1409896/000118143112051484/0001181431-12-051484.hdr.sgml
Я использую Python 3 и не смог найти решение с существующими библиотеками для анализа SGML файла с открытыми тегами. SGML допускает неявно закрытые теги. При попытке проанализировать пример файла с помощью LXML, XML или красивого супа, я заканчиваю закрытыми закрытыми тегами в конце файла, а не в конце строки.
Например:
<COMPANY>Awesome Corp
<FORM> 24-7
<ADDRESS>
<STREET>101 PARSNIP LN
<ZIP>31337
</ADDRESS>
В результате это интерпретируется как:
<COMPANY>Awesome Corp
<FORM> 24-7
<ADDRESS>
<STREET>101 PARSNIP LN
<ZIP>31337
</ADDRESS>
</ZIP>
</STREET>
</FORM>
</COMPANY>
Однако мне нужно, чтобы это интерпретировалось как:
<COMPANY>Awesome Corp</COMPANY>
<FORM> 24-7</FORM>
<ADDRESS>
<STREET>101 PARSNIP LN</STREET>
<ZIP>31337</ZIP>
</ADDRESS>
Если для передачи на LXML/BS4, который может справиться с этим, я не могу его пропустить.