Учитывая набор строк, например:
EFgreen
EFgrey
EntireS1
EntireS2
J27RedP1
J27GreenP1
J27RedP2
J27GreenP2
JournalP1Black
JournalP1Blue
JournalP1Green
JournalP1Red
JournalP2Black
JournalP2Blue
JournalP2Green
Я хочу иметь возможность обнаружить, что это три набора файлов:
- заходы [1,2]
- J27 [красный, зеленый] Р [1,2]
- JournalP [1,2] [красный, зеленый, синий]
Существуют ли какие-либо известные способы решения этой проблемы - любые опубликованные статьи, которые я могу прочитать по этому поводу?
Подход, который я рассматриваю, предназначен для каждой строки, смотрящей на все остальные строки, и нахожу общие символы и где разные символы, пытаясь найти множество строк, которые имеют самое общее, но я боюсь, что это не очень эффективно и может давать ложные срабатывания.
Обратите внимание, что это не то же самое, что "Как определить группы общих строк в именах файлов" , поскольку это предполагает, что строка всегда будет содержать ряд цифр следуя за ним.