Я читаю данные из старой проприетарной базы данных. К сожалению, я заканчиваю (только для некоторых строк) с Encoding(mychar_vector)
возвращающим "unknown"
. К сожалению, я использую оболочку с закрытым исходным кодом c hli
(интерфейс языка хоста), поэтому, вероятно, я не могу с этим поделать - если это так, я рад, что здесь оказался ошибочным...
Однако, глядя на вектор строки, за исключением нескольких замен, я должен был сделать (см. мой вопрос ), используя gsub
строки выглядят нормально. Мне бы хотелось снова получить контроль над кодировкой. Есть ли способ принудительно установить кодировку в UTF-8? Я попытался
Encoding(mychar_vector) <- "UTF-8"
# or
mychar_vector <- enc2utf8(mychar_vector)
Но ничего из этого не получилось. Просто получил "unknown"
в ответ сразу после проверки. Также посмотрел на iconv
, но, очевидно, нет способа конвертировать из "неизвестного" в UTF-8, поскольку нет сопоставления.
Есть ли способ сказать R, что задействованы только символы UTF-8, и поэтому кодировка может быть установлена на UTF-8. Обратите внимание, что некоторые элементы вектора уже имеют UTF-8.