Вот головоломка...
У меня есть две базы данных из тех же 50000+ электронных продуктов, и я хочу сопоставить продукты в одной базе данных с другими. Однако названия продуктов не всегда идентичны. Я попытался использовать расстояние Левенштейна для измерения сходства строк, однако это не сработало. Например,
-LG 42CS560 42-Inch 1080p 60Hz LCD HDTV
-LG 42 Inch 1080p LCD HDTV
Эти предметы одинаковы, но их названия продуктов сильно различаются.
С другой стороны...
-LG 42 Inch 1080p LCD HDTV
-LG 50 Inch 1080p LCD HDTV
Это разные продукты с очень похожими названиями продуктов.
Как мне решить эту проблему?