Ошибка кодирования в Panda read_csv

Я пытаюсь прочитать CSV файл в Dataframe в Pandas. Когда я пытаюсь это сделать, я получаю следующую ошибку:

UnicodeDecodeError: кодек "utf-8" не может декодировать байт 0x96 в позиции 55: недопустимый стартовый байт

Это от кода:

import pandas as pd

location = r"C:\Users\khtad\Documents\test.csv"

df = pd.read_csv(location, header=0, quotechar='"')

Это делается на компьютере с пакетом обновления 1 (SP1) для Windows 7 Enterprise и, похоже, применяется к каждому файлу CSV, который я создаю. В этом конкретном случае двоичный код из местоположения 55 равен 00101001, а местоположение 54 равно 01110011, если это имеет значение.

Сохранение файла как UTF-8 с помощью текстового редактора тоже не помогает. Аналогично, добавление параметра "encoding = 'utf-8" тоже не работает - оно возвращает ту же ошибку.

Какова наиболее вероятная причина этой ошибки и есть ли какие-либо обходные пути, кроме отказа на конструкцию DataFrame на данный момент, и использование модуля csv для чтения в CSV по очереди?

Ответ 1

Попробуйте вызвать read_csv с encoding='latin1', encoding='iso-8859-1' или encoding='cp1252' (это некоторые из различных кодировок, найденных в Windows).

Ответ 2

Это работает на Mac, и вы можете использовать

df= pd.read_csv('Region_count.csv',encoding ='latin1')