Я хочу добавить (слить) все файлы csv в папку с помощью Python pandas.
Например: папка Say имеет два файла csv test1.csv
и test2.csv
следующим образом:
A_Id P_Id CN1 CN2 CN3
AAA 111 702 709 740
BBB 222 1727 1734 1778
и
A_Id P_Id CN1 CN2 CN3
CCC 333 710 750 750
DDD 444 180 734 778
Итак, питон script, который я написал, был следующим:
#!/usr/bin/python
import pandas as pd
import glob
all_data = pd.DataFrame()
for f in glob.glob("testfolder/*.csv"):
df = pd.read_csv(f)
all_data = all_data.append(df)
all_data.to_csv('testfolder/combined.csv')
Несмотря на то, что combined.csv
имеет все добавленные строки, он выглядит следующим образом:
CN1 CN2 CN3 A_Id P_Id
0 710 750 750 CCC 333
1 180 734 778 DDD 444
0 702 709 740 AAA 111
1 1727 1734 1778 BBB 222
Где это должно выглядеть так:
A_ID P_Id CN1 CN2 CN2
AAA 111 702 709 740
BBB 222 1727 1734 1778
CCC 333 110 356 123
DDD 444 220 256 223
- Почему первые два столбца переместились в конец?
- Почему он добавляется в первую строку, а не в последнюю строку?
Что мне не хватает? И как я могу получить получение 0s и 1s в первом столбце?
P.S: Поскольку это большие файлы csv, я думал об использовании pandas.