Я обрабатываю некоторые файлы данных, которые должны быть действительными UTF-8, но это не так, что приводит к сбою синтаксического анализатора (не под моим контролем). Я хотел бы добавить этап предварительной проверки данных для правильного формирования UTF-8, но я еще не нашел утилиту, чтобы помочь сделать это.
На W3C есть веб-служба, которая кажется мертвой, и я нашел инструмент проверки только для Windows, который сообщает о недействительных файлах UTF-8, но не сообщает, какие строки/символы нужно исправить.
Я был бы рад либо инструменту, который я могу вставить и использовать (в идеале кроссплатформенный), либо сценарию ruby /perl, который я могу сделать частью моего процесса загрузки данных.