Два сообщения ниже - отличные примеры различных подходов к извлечению данных с веб-сайтов и их разбора в R.
Скремблирование html-таблиц в R-фреймы данных с использованием пакета XML
Как я могу использовать R (Rcurl/XML-пакеты?!), чтобы очистить эту веб-страницу
Я очень новичок в программировании, и я только начинаю с R, поэтому я надеюсь, что этот вопрос довольно простой, но, учитывая эти сообщения выше, я думаю, что это так.
Все, что я хочу сделать, это извлечь ссылки, соответствующие заданному шаблону. Я чувствую, что, возможно, я мог бы использовать RCurl для чтения на веб-страницах и извлечь их методом грубой силы, используя строковые выражения. Тем не менее, если веб-страница достаточно хорошо сформирована, как мне это сделать, используя пакет XML.
Как я узнаю больше, мне нравится "смотреть" на данные, когда я работаю над проблемой. Проблема в том, что некоторые из этих подходов генерируют списки списков списков и т.д., Поэтому для кого-то, кто является новым (например, я), трудно пройти туда, куда мне нужно идти.
Опять же, я очень новичок во всем, что программирует, поэтому с благодарностью будут выражены любые подсказки или фрагменты кода.