Мой код создает некоторый контент с сайта UserVoice. Как вы знаете, UserVoice - это дерьмовое программное обеспечение, которое не может правильно обрабатывать данные; действительно, чтобы уменьшить количество текста на странице поиска, они разрезают текст, допустим, 300 символов, а затем добавляют "..." до конца. Thing, , они не заботятся обрезать середину многобайтового символа, что приводит к частичному байту utf-8 ": например. для è
char я получил \xc3
вместо \xc3\xa8s
.
Конечно, когда я даю этот ужасный суп json.loads
, он терпит неудачу с UnicodeDecodeError
. Поэтому мой вопрос прост: как я могу попросить json.loads
игнорировать эти плохие байты, как я бы это сделал, используя .decode('utf-8', 'ignore')
, если бы у меня был доступ к внутренним функциям функции?
Спасибо.