Таким образом, вам гарантировано не получить "недействительные" последовательности юникода, такие как первая половина суррогатной пары без второй половины. Ничто не решит нормализовать данные во что-то странное (все это ASCII). Там нет шансов использовать кодовые точки, которые не зарегистрированы в Unicode, или что-то в этом роде. О, и вы можете вырезать и вставить без особого страха тоже.
Да, вы получаете 4 символа на каждые 3 байта - но это небольшая цена, чтобы заплатить за то, что ваши данные не будут повреждены.