Я разбираю HTML-документ с несколькими модулями Perl: HTML:: TreeBuilder и HTML:: Element. По какой-то причине, когда содержимое тега просто
, что следует ожидать, оно возвращается HTML: Element как странный символ, которого я никогда раньше не видел:
alt text http://www.freeimagehosting.net/uploads/2acca201ab.jpg
Я не могу скопировать символ, поэтому Google не смог его найти, не смог найти его в карте символов, и, как ни странно, при поиске с регулярным выражением \w
находит его. Когда я конвертирую возвращенный документ в ANSI или UTF-8, он полностью исчезает. Я не мог найти информацию об этом в документации HTML:: Element.
Как я могу обнаружить и заменить этот символ чем-то более полезным, например null
, и как я буду иметь дело с такими странными символами, как это в будущем?