В большом наборе данных у меня есть некоторые данные, которые выглядят следующим образом:
"guide (but, yeah, it’s okay to share it with ‘em)."
Я открыл файл в шестнадцатеричном редакторе и запускал необработанные байтовые данные с помощью алгоритма обнаружения кодировки символов (http://code.google.com/p/juniversalchardet/), и он положительно обнаруживается как UTF -8.
Мне кажется, что источник данных неправильно интерпретировал исходный набор символов и написал действительный UTF-8 в качестве результата, который я получил.
Я хочу проверить данные, насколько это возможно. Существуют ли какие-либо эвристики/алгоритмы, которые могут помочь мне получить удар по проверке?