Подтвердить что ты не робот

Расстояние Хэмминг против Левенштейна

Для проблемы, над которой я работаю, найти расстояния между двумя последовательностями, чтобы определить их сходство, порядок последовательности очень важен. Тем не менее, последовательности, которые у меня есть, не имеют одинаковой длины, поэтому я накладываю любые строки с недостатками с пустыми точками, так что обе последовательности имеют одинаковую длину, чтобы удовлетворить требованию расстояния Хэмминга. Есть ли какая-то серьезная проблема, когда я это делаю, поскольку все, о чем я забочусь, это количество транспозиций (не вставки или удаления, такие как Levenshtein)?

Я обнаружил, что расстояние Хэмминга намного, намного быстрее, чем Левенштейн, как метрика расстояния для последовательностей длинной длины. Когда следует использовать расстояние Левенштейна (или производные от расстояния Левенштейн) вместо гораздо более дешевого расстояния Хэмминга? Расстояние Хемминга можно считать верхней границей возможных расстояний Левенштейна между двумя последовательностями, поэтому, если я сравниваю две последовательности для метрики сходства по порядку, а не абсолютное минимальное число ходов для соответствия последовательностям, разум для меня выбрать Левенштейна над Хэммином как метрику, есть ли?

4b9b3361

Ответ 1

Этот вопрос действительно зависит от типов последовательностей, которые вы соответствуете, и чего вы хотите.

Если не проблема, что "1234567890" и "0123456789" считаются совершенно разными, то действительно расстояние Хэмминга прекрасное.