Я новичок в Python и использую Python 3.1 для Windows (pywin). Мне нужно проанализировать некоторые HTML, по существу дополнительные значения между конкретными тегами HTML и запутаться в моем наборе параметров, и все, что я нахожу, подходит для Python 2.x. Я читал рейвы о Beautiful Soup, HTML5Lib и lxml, но я не могу понять, как их установить в Windows.
Вопросы:
- Какой HTML-парсер вы порекомендуете?
- Как его установить? (Будьте нежны, я совершенно не знаком с Python и помню, что я на Windows)
-
Есть ли у вас простой пример того, как использовать рекомендованную библиотеку для улавливания HTML из определенного URL-адреса и вернуть значение из примерно следующего:
< div class= "foo" > < table < tr <td> foo </tr> </таблица > < a class= "ссылка" href= '/blahblah' > Ссылка </а > </DIV>
(скажем, мы хотим вернуть "/blahblah" )