У меня есть XML файл, который выводит из базы данных. Я использую парсер Java SAX для анализа XML и вывода его в другом формате. XML содержит некоторые недопустимые символы, и синтаксический анализатор бросает такие ошибки, как "Недопустимый символ Unicode (0x5)"
Есть ли хороший способ удалить все эти символы, помимо предварительной обработки файла по очереди и замены? До сих пор я столкнулся с тремя разными недопустимыми символами (0x5, 0x6 и 0x7). Это дамп базы данных ~ 4gb, и мы собираемся обрабатывать его несколько раз, поэтому, чтобы ждать дополнительные 30 минут каждый раз, когда мы получаем новый дамп для запуска препроцессора, это будет боль, и это не первый раз, когда я столкнулся с этой проблемой.