Используя R, я пытаюсь очистить веб-страницу, чтобы сохранить текст, который находится на японском языке, в файл. В конечном итоге это необходимо масштабировать, чтобы ежедневно обрабатывать сотни страниц. У меня уже есть работоспособное решение в Perl, но я пытаюсь перенести script в R, чтобы уменьшить когнитивную нагрузку переключения между несколькими языками. До сих пор мне не удалось. Связанные вопросы выглядят как этот при сохранении csv файлов и этот при написании иврита в HTML файл. Однако мне не удалось объединить решение, основанное на ответах на них. Edit: этот вопрос на выходе UTF-8 из R также имеет значение, но не был разрешен.
Страницы из Yahoo! Japan Finance и мой код Perl, который выглядит так.
use strict;
use HTML::Tree;
use LWP::Simple;
#use Encode;
use utf8;
binmode STDOUT, ":utf8";
my @arr_links = ();
$arr_links[1] = "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7203";
$arr_links[2] = "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7201";
foreach my $link (@arr_links){
$link =~ s/"//gi;
print("$link\n");
my $content = get($link);
my $tree = HTML::Tree->new();
$tree->parse($content);
my $bar = $tree->as_text;
open OUTFILE, ">>:utf8", join("","c:/", substr($link, -4),"_perl.txt") || die;
print OUTFILE $bar;
}
Этот Perl script создает CSV файл, который выглядит как снимок экрана ниже, с соответствующими кандзи и канами, которые можно добывать и манипулировать в автономном режиме:
Мой код R, такой как он, выглядит следующим образом. R script не является точным дубликатом только что предоставленного решения Perl, так как он не выделяет HTML и не оставляет текст (этот ответ предлагает подход используя R, но в этом случае он не работает для меня), и у него нет цикла и т.д., но намерение одинаков.
require(RCurl)
require(XML)
links <- list()
links[1] <- "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7203"
links[2] <- "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7201"
txt <- getURL(links, .encoding = "UTF-8")
Encoding(txt) <- "bytes"
write.table(txt, "c:/geturl_r.txt", quote = FALSE, row.names = FALSE, sep = "\t", fileEncoding = "UTF-8")
Этот R script генерирует результат, показанный на скриншоте ниже. В основном мусор.
Я предполагаю, что существует некоторая комбинация кодировки HTML, текста и файла, которая позволит мне сгенерировать в R аналогичный результат с решением Perl, но я не могу его найти. Заголовок HTML-страницы, которую я пытаюсь очистить, говорит, что набор диаграмм - utf-8, и я установил кодировку в вызове getURL
и в функции write.table
для utf-8, но этого недостаточно..
Вопрос Как я могу очистить вышеуказанную веб-страницу с помощью R и сохранить текст как CSV в "хорошо сформированном" японском тексте, а не что-то похожее на линейный шум?
Изменить: я добавил еще один снимок экрана, чтобы показать, что происходит, когда я опускаю шаг Encoding
. Я получаю то, что выглядит как коды Unicode, но не графическое представление символов. Это может быть какая-то проблема, связанная с локальностью, но в той же самой локали Perl script предоставляет полезный результат. Так что это все еще озадачивает.
Моя информация о сеансе:
R версия 2.15.0 исправлена (2012-05-24 r59442)
Платформа: i386-pc-mingw32/i386 (32-разрядная версия)
локали:
1 LC_COLLATE = English_United Kingdom.1252
2 LC_CTYPE = English_United Kingdom.1252
3 LC_MONETARY = English_United Kingdom.1252
4 LC_NUMERIC = C
5 LC_TIME = English_United Kingdom.1252
прикрепленные базовые пакеты:
1 Статистика Графика grDevices utils наборы баз данных методы базы