Multiple Alignments Column Hits Observer (MACHO) - программа, предназначенная для поиска совпадающих колонок в различных множественных выравниваниях одного набора последовательностей.
ИСПОЛЬЗОВАНИЕ
Для получения справки следует использовать опцию -h (Рис. 1). Также можно ознакомиться с краткой инструкцией по использованию программы.
Позиционные аргументы:
alignment_1 и alignment_2 — полные или относительные пути к файлам с множественными выравниваниями в формате FASTA.
out — полный или относительный путь к файлу для записи результатов работы программы в формате TSV. Если не указан, результаты работы будут выведены в STDOUT.
По умолчанию результатом работы программы является таблица в формате TSV, в каждой строке которой указаны координаты совпадающих колонок в каждом из выравниваний. Также в STDOUT выводится информация о количестве колонок, а также о доле идентичных колонок в каждом из выравниваний.
Опциональные аргументы:
-h — получить справку о программе (Рис. 1).
-hr — объединить идущие подряд совпадающие колонки в блоки и вместо координат колонок вывести координаты совпадающих блоков в формате TSV (Рис. 3).
-g — указать максимальное допустимое число гэпов в колонке (по умолчанию оно равно: число последовательностей в выравниваниях - 1). После указания опции в STDOUT будет выведена информация о количестве последовательностей в выравниваниях и появится возможность ввести максимальное допустимое число гэпов в колонке (Рис. 4).
-s — учитывать различия между инделями при поиске совпадающих колонок. Одинаковыми считаются индели, расположенные между одними и теми же элементами (аминокислотами или нуклеотидами) данной последовательности.
Примеры использования программы приведены на рисунках 2-4 ниже.
ОСОБЕННОСТИ
Возможность фильтрации колонок по количеству гэпов
Наша программа предоставляет пользователю возможность устанавливать максимальное число гэпов в колонке. Также данное значению по умолчанию, равное количеству последовательностей в выравнивании - 1, гарантирует игнорирование колонок, полностью состоящих из гэпов в случае наличия таковых в выравнивании.
Возможность учета различий между инделями в выравниваниях
Использование опции -s позволяет учесть различия между инделями в сравниваемых выравниваниях. Одинаковыми считаются индели, расположенные между одними и теми же элементами данной последовательности (Рис. 5).
Устойчивость к различиям в названиях и описаниях последовательностей
Работа программы включает этап сортировки последовательностей в каждом выравнивании по строке, содержащей название и описание, в алфавитном порядке. Поэтому даже при наличии некоторых различий в названии или описании одной и той же последовательности в разных выравниваниях программа будет работать корректно, если алфавитный порядок (по названию и описанию) последовательностей одинаков в обоих выравниваниях.
Устойчивость к присутствию несовпадающих фрагментов одной последовательности в выравнивании
В некоторых случаях, например для выравниваний по совмещению структур, в выравнивании может присутствовать не вся последовательность, а ее фрагмент. Программа MACHO способна к работе в подобных ситуациях, поскольку при несовпадении аминокислотных последовательностей, обладающих одним названием, происходит поиск перекрытия между фрагментами (пример на Рис. 6).
АВТОРЫ
Гагарочкин Виталий, студент 1-го курса факультета биоинженерии и биоинформатики МГУ имени М.В. Ломоносова
Маслеников Всеволод, студент 1-го курса факультета биоинженерии и биоинформатики МГУ имени М.В. Ломоносова
Нагорный Даниил, студент 1-го курса факультета биоинженерии и биоинформатики МГУ имени М.В. Ломоносова
ССЫЛКИ