WinXP-x32, R-2.13.0
Дорогой список,
У меня есть проблема, которая (я думаю) связана с взаимодействием между Windows и R.
Я пытаюсь очистить таблицу данными о Гавайских островах. Это мой код R:
library(XML)
u <- "http://en.wikipedia.org/wiki/Hawaii"
tables <- readHTMLTable(u)
Islands <- tables[[5]]
Выход (первый набор столбцов):
Island Nickname > > Islands Island Nickname > > Location 1 Hawaiʻi[7] The Big
Остров 19 ° 34 "²N 155 ° 30" ²Wï "¿/ ï" À 19.567 ° N 155,5 ° Wï "À/19,567; -155,5 2 Мауи [8] Остров долины 20 ° 48" ²N 156 ° 20" ²Wï "¿/ ï" À 20.8 ° N 156.333 ° Wï" À/20.8; -156.333 3 KahoÊ "olawe [9] Целевой остров 20 ° 33â € ²N 156 ° 36" ²Wï "¿/ï" ¿20,55 ° N 156,6 ° W · "/20,55; -156.6 4 LÄnaÊ" i [10] Остров ананасов 20 ° 50 â € ²N 156 ° 56â € ²Wï "¿/ ï" À 20,833 ° N 156,933 ° Wï "À/20,833; -156.933 5 MolokaÊ" i [11] Дружелюбный остров 21 ° 08 '²N 157 ° 02'2Wï "¿/ï" À 21.133 ° N 157.033 ° Wï "/21.133; -157.033 6 OÊ" ahu [12] The Gathering Place 21 ° 28 "€ 157 ° 59" € Вт "¿/ ï" À 21,467 ° N 157,983 ° Wï "À/21,467; -157.983 7 KauaÊ" i [13] Сад-сад 22 ° 05'2N 159 ° 30 "²Wï "¿/ï" ¿22.083 ° N 159,5 ° W · "/22.083; -159.5 8 NiÊ "ihau [14] Запретный остров
21 ° 54 '²N 160 ° 10" ²Wï "¿/ï" À 21,9 ° N 160.167 ° Wï "/21.9; -160,167
Как видите, там есть "странные" персонажи. Я также пробовал readHTMLTable(u, encoding = "UTF-16")
и readHTMLTable(u, encoding = "UTF-8")
но это не помогло.
Мне кажется, что может возникнуть проблема с взаимодействием настроек Windows набора символов и R.
sessionInfo()
дает
> sessionInfo()
R version 2.13.0 (2011-04-13)
Platform: i386-pc-mingw32/i386 (32-bit)
locale:
[1] LC_COLLATE=Dutch_Netherlands.1252 LC_CTYPE=Dutch_Netherlands.1252 LC_MONETARY=Dutch_Netherlands.1252
[4] LC_NUMERIC=C LC_TIME=Dutch_Netherlands.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] XML_3.2-0.2
Я также попытался позволить R использовать другой параметр, введя: Sys.setlocale("LC_ALL", "en_US.UTF-8")
, но это дает ответ:
> Sys.setlocale("LC_ALL", "en_US.UTF-8")
[1] ""
Warning message:
In Sys.setlocale("LC_ALL", "en_US.UTF-8") :
OS reports request to set locale to "en_US.UTF-8" cannot be honored
Кроме того, я попытался внести изменения непосредственно из командной строки Windows, используя: chcp 65001
и варианты этого, но это ничего не изменило.
Я заметил, что при поиске в Интернете у других есть проблема, но они не смогли найти решение. Похоже, что это проблема взаимодействия Windows и R. К сожалению, все три компьютера в моем распоряжении имеют эту проблему. Это происходит как под WinXP-x32, так и под Win7-x86.
Есть ли способ сделать R переопределить параметры Windows или решить проблему иначе? Я также пробовал другие веб-сайты, и эта проблема возникает каждый раз, когда в тексте, который вы читаете, есть é, ü, ä, î и т.д.
Спасибо, Роджер