Удаление текста без текста из Corpus в R с помощью tm()

Я использую tm() и wordcloud() для некоторого базового интеллектуального анализа данных в R, но я сталкиваюсь с трудностями, потому что в моем наборе данных есть неанглийские символы (хотя я пытался отфильтровать другие языки на основе на фоновые переменные.

Скажем, что некоторые из строк в моем TXT файле (сохраненные как UTF-8 в TextWrangler) выглядят следующим образом:

Special
satisfação
Happy
Sad
Potential für

Затем я прочитал свой txt файл в R:

words <- Corpus(DirSource("~/temp", encoding = "UTF-8"),readerControl = list(language = "lat"))

Это дает предупреждающее сообщение:

Warning message:
In readLines(y, encoding = x$Encoding) :
  incomplete final line found on '/temp/file.txt'

Но поскольку это предупреждение, а не ошибка, я продолжаю продвигаться вперед.

words <- tm_map(words, stripWhitespace)
words <- tm_map(words, tolower)

Это приводит к ошибке:

Error in FUN(X[[1L]], ...) : invalid input 'satisfa��o' in 'utf8towcs'

Я открыт для поиска способов отфильтровать неанглийские символы либо в TextWrangler, либо в R; что наиболее целесообразно. Спасибо за вашу помощь!

Ответ 1