Подтвердить что ты не робот

Почему этот символ A0 появляется в моем выпуске HTML:: Element?

Я разбираю HTML-документ с несколькими модулями Perl: HTML:: TreeBuilder и HTML:: Element. По какой-то причине, когда содержимое тега просто  , что следует ожидать, оно возвращается HTML: Element как странный символ, которого я никогда раньше не видел:

alt text http://www.freeimagehosting.net/uploads/2acca201ab.jpg

Я не могу скопировать символ, поэтому Google не смог его найти, не смог найти его в карте символов, и, как ни странно, при поиске с регулярным выражением \w находит его. Когда я конвертирую возвращенный документ в ANSI или UTF-8, он полностью исчезает. Я не мог найти информацию об этом в документации HTML:: Element.

Как я могу обнаружить и заменить этот символ чем-то более полезным, например null, и как я буду иметь дело с такими странными символами, как это в будущем?

4b9b3361

Ответ 1

Символ "\xa0" (т. 160), который является стандартным переводом Unicode для  . (То есть это Unicode неразрывное пространство.) Вы можете удалить их с помощью s/\xa0/ /g, если хотите.

Ответ 2

Символ неразрывное пространство, что означает  :

В текстовой обработке и цифровом наборе текста неразрывное пространство ( "" ) (также называемое пространством без разрыва, неразрывным пространством (NBSP), жестким пространством или фиксированным пространством) является пространственным символом, который предотвращает автоматический разрыв линии в своем положении. В некоторых форматах, включая HTML, он также предотвращает сворачивание последовательных символов пробелов в одно пространство.

В HTML общее неразрывное пространство, которое имеет ту же ширину, что и обычный символ пробела, кодируется как или. В Unicode он кодируется как U+00A0.