Подтвердить что ты не робот

Сильно установить кодировку от неизвестного до UTF-8 или любую кодировку в R?

Я читаю данные из старой проприетарной базы данных. К сожалению, я заканчиваю (только для некоторых строк) с Encoding(mychar_vector) возвращающим "unknown". К сожалению, я использую оболочку с закрытым исходным кодом c hli (интерфейс языка хоста), поэтому, вероятно, я не могу с этим поделать - если это так, я рад, что здесь оказался ошибочным...

Однако, глядя на вектор строки, за исключением нескольких замен, я должен был сделать (см. мой вопрос ), используя gsub строки выглядят нормально. Мне бы хотелось снова получить контроль над кодировкой. Есть ли способ принудительно установить кодировку в UTF-8? Я попытался

Encoding(mychar_vector) <- "UTF-8"
# or
mychar_vector <- enc2utf8(mychar_vector)

Но ничего из этого не получилось. Просто получил "unknown" в ответ сразу после проверки. Также посмотрел на iconv, но, очевидно, нет способа конвертировать из "неизвестного" в UTF-8, поскольку нет сопоставления.

Есть ли способ сказать R, что задействованы только символы UTF-8, и поэтому кодировка может быть установлена ​​на UTF-8. Обратите внимание, что некоторые элементы вектора уже имеют UTF-8.

4b9b3361

Ответ 1

Когда я рассматривал файлы, которые не кодируются в кодировке UTF-8 должным образом, я использовал iconv с большим успехом, чтобы принудительно преобразовать файл, просто выполнив bash script в моем ноутбуке rmarkdown:

iconv -c -t UTF-8 myfile.txt > Ratebeer-myfile.txt

Вы также можете попробовать это, где файл является вашим исходным файлом, а file-iconv - измененным файлом:

#iconv −f iso−8859−1 −t UTF−8 file.txt > file-iconv.txt

Проверьте кодировку с помощью

file -I file-iconv.txt

Сообщите мне, помогает ли это или нет.