Я пытаюсь использовать универсальный детектор кодирования (chardet) в Python для обнаружения наиболее вероятной кодировки символов в текстовом файле ( "infile" ) и использовать его для дальнейшей обработки.
Хотя chardet предназначен в первую очередь для обнаружения кодировки символов веб-страниц, я нашел пример, который используется в отдельных текстовых файлах.
Однако я не могу понять, как сообщить script установить наиболее вероятную кодировку символов в переменную 'charenc' (которая используется несколько раз в течение script).
Мой код, основанный на комбинации вышеупомянутого примера и чарта, документации выглядит следующим образом:
import chardet
rawdata=open(infile,"r").read()
chardet.detect(rawdata)
При использовании script требуется распознавание символов, чтобы запустить следующее (а также несколько аналогичных применений):
inF=open(infile,"rb")
s=unicode(inF.read(),charenc)
inF.close()
Любая помощь будет принята с благодарностью.