Я пишу программу, которая должна вычислить множественное выравнивание последовательности набора строк. Я думал об этом в Python, но я мог бы использовать внешнюю часть программного обеспечения или другой язык, если это было бы более практичным. Данные не особенно большие, у меня нет сильных требований к производительности, и я могу терпеть приближения (т.е. Мне просто нужно найти достаточно хорошее выравнивание). Единственная проблема заключается в том, что строки являются регулярными строками (т.е. Строки UTF-8, потенциально с новыми строками, которые следует рассматривать как обычный символ); они не являются последовательностями ДНК или белковыми последовательностями.
Я могу найти множество инструментов и информации для обычных случаев в биоинформатике с конкретными сложными форматами файлов и множеством функций, которые мне не нужны, но нетрудно найти программное обеспечение, библиотеки или пример кода для простого случая строк. Возможно, я мог бы переопределить любой из многих алгоритмов для этой проблемы или закодировать свою строку как ДНК, но должен быть лучший способ. Вы знаете какие-либо решения?
Спасибо!