Девять лет назад, когда я начал разбирать HTML и свободный текст с Perl, я читал классический Data Munging с Perl. Кто-нибудь знает, планирует ли Дэвид обновить книгу или есть похожие книги или веб-страницы, где новые модули синтаксического анализа, такие как XML-Twig, Regexp-Grammars и т.д.?
Я предполагаю, что за последние девять лет некоторые модули по-прежнему так же хороши, как и раньше, некоторые из них обновлены, но с новыми интересными методами, а некоторые из них имеют лучшие замены. Например, по-прежнему Parse-RecDescent единственная опция для свободного синтаксического анализа текста или будет влиять на Perl 6 Regexp-Grammars его замена во многих сценариях?
Мне было четыре года без активного HTML, XML или бесплатного интеллектуального анализа данных с Perl, поэтому, вероятно, мой инструментарий в этой области немного устарел. Поэтому любая обратная связь для манипуляций HTML и DOM, извлечения/проверки ссылок, веб-тестирования, таких как Mechanize, XML-манипуляция и бесплатный синтаксический анализ текста, от людей, которые обновлены с нынешними модулями CPAN в этой области, будет более чем приветствуемой.
Некоторые новые дополнения к моему инструменту:
все еще в моем наборе инструментов:
- HTML-TableExtract # не обновляется с 2006 года
- WWW-Механизация
- Parse-RecDescent
- HTML-TokeParser
- URI-Escape
- [подробнее...]