Некоторые из наших пользователей используют почтовые клиенты, которые не могут справиться с Unicode, даже если кодировка и т.д. правильно установлены в заголовках сообщений.
Я хочу "нормализовать" контент, который они получают. Самая большая проблема, с которой мы сталкиваемся, - это копирование пользователями контента из Microsoft Word в наше веб-приложение, которое затем пересылает этот контент по электронной почте - включая дроби, умные кавычки и все другие расширенные символы Юникода, которые Word помогает вам вставить.
Я предполагаю, что для этого нет определенного решения, но прежде чем я сяду и начну писать большие таблицы поиска, есть ли встроенный метод, который заставит меня начать?
В основном три фазы.
Во-первых, снятие акцентов с других букв - решение этого здесь
This paragraph contains "smart quotes" and áccénts and ½ of the problem is fractions
переходит в
This paragraph contains "smart quotes" and accents and ½ of the problem is fractions
Во-вторых, заменив одиночные символы Unicode на их эквивалент ASCII, чтобы дать:
This paragraph contains "smart quotes" and accents and ½ of the problem is fractions
Это та часть, где я надеюсь найти решение, прежде чем я реализую свое. Наконец, заменяя конкретные символы подходящей последовательностью ASCII - от 1/2 до 1/2 и т.д., Что, я уверен, не поддерживается какой-либо маской Unicode, но кто-то мог написать подходящую таблицу поиска, которую я могу повторное использование.
Любые идеи?