В последнее время Эдвин Чэнь опубликовал отличную карту регионального использования соды против поп-кокса, созданной из геокодированных твитов, в которой эти слова употребляются в контексте употребления алкоголя. http://blog.echen.me/2012/07/06/soda-vs-pop-with-twitter/
Он упоминает, что использовал пакет twitteR, созданный Джеффом Джентри в R. Конечно же, легко собрать твиты, которые используют данное слово и помещают их в кадр данных:
require(twitteR)
require(plyr)
cat.tweets<-searchTwitter("cats",n=1000)
tweets.df = ldply(cat.tweets, function(t) t$toDataFrame() )
dataframe (tweets.df) будет содержать идентификатор пользователя, текст твита и т.д. для каждого твита, но не содержит геокода. Любая идея о том, как ее получить в R?