Я планирую написать webcrawler для проекта NLP, который читает в структуре потока форума каждый раз в определенном интервале и анализирует каждый поток с новым контентом. С помощью регулярных выражений извлекается автор, дата и содержание новых сообщений. Затем результат сохраняется в базе данных.
Язык и форматы, используемые для искателя, должны соответствовать следующим критериям:
- легко масштабируется на нескольких ядрах и процессорах
- подходит для высоких нагрузок ввода/вывода
- быстрое соответствие регулярному выражению
- легко поддерживать/немного операционных издержек
После некоторых исследований я думаю, что Erlang может быть подходящим кандидатом, но я читал, что он не очень хорош в обработке строк (и, таким образом, в регулярном выражении). У меня нет опыта в отношении фактора обслуживания.
Является ли Erlang хорошей технологией для описанного выше сценария? А если нет, то какая хорошая альтернатива?