Мне нужно tokenize строку на основе пробелов после ее очистки.
Ответ 1
input.replace(/[^\w\s]/gi, '')
Бесстыдно украдены из другого ответа. ^ в символьном классе означает "нет". Таким образом, это "не" \w (эквивалентно \w), а не \s, что является символами пробела (пробелы, вкладки и т.д.). Если вы хотите, вы можете просто использовать литерал .