Я использую BeautifulSoup и анализирую некоторые HTML файлы.
Я получаю определенные данные из каждого HTML (используя цикл for) и добавляя эти данные в определенный список.
Проблема в том, что некоторые из HTML имеют другой формат (и у них нет данных, которые я хочу в них).
Итак, я пытался использовать обработку исключений и добавлять значение null
в список (я должен это делать, поскольку важна последовательность данных.)
Например, у меня есть код вроде:
soup = BeautifulSoup(links)
dlist = soup.findAll('dd', 'title')
# I'm trying to find content between <dd class='title'> and </dd>
gotdata = dlist[1]
# and what i want is the 2nd content of those
newlist.append(gotdata)
# and I add that to a newlist
а некоторые из ссылок не имеют <dd class='title'>
, поэтому я хочу добавить строку null
в список.
Появится сообщение об ошибке:
list index out of range.
Я попытался добавить несколько строк:
if not dlist[1]:
newlist.append('null')
continue
Но это не сработает. Он по-прежнему показывает ошибку:
list index out of range.
Что мне делать? Должен ли я использовать обработку исключений? или есть более простой способ?
Любые предложения? Любая помощь будет действительно замечательной!