У меня есть два DataFrames, которые я хочу объединить на основе столбца. Однако из-за чередующихся написаний, разного количества пробелов, отсутствия/наличия диакритических знаков я хотел бы иметь возможность сливаться, пока они похожи друг на друга.
Будет выполняться любой алгоритм подобия (soundex, Levenshtein, difflib's).
Скажем, что один DataFrame имеет следующие данные:
df1 = DataFrame([[1],[2],[3],[4],[5]], index=['one','two','three','four','five'], columns=['number'])
number
one 1
two 2
three 3
four 4
five 5
df2 = DataFrame([['a'],['b'],['c'],['d'],['e']], index=['one','too','three','fours','five'], columns=['letter'])
letter
one a
too b
three c
fours d
five e
Затем я хочу получить полученный DataFrame
number letter
one 1 a
two 2 b
three 3 c
four 4 d
five 5 e