Сравнение множественных выравниваний

Задание 1

Я написала скрипт для сравнения двух множественных выравниваний. Инструкция вызывается командой python msa.py -h.

Задание 2

Я решила выравнивать домен 10 кДа шаперонина PF00166, с которым я работала в предыдущих практикумах. Я открыла выравнивание seed в Jalview, удалила из него гэпы и выровняла там же тремя программами: Clustal Omega, Mafft и Muscle (проект Jalview). Результаты сравнения трех выравниванием с проверенным людьми выравниванием seed представлены в Таблице 1. Наиболее близким к референсному оказалось выравнивание Clustal Omega c процентом совпадающих колонок немногим более 50. Также можно заметить, что для трех пар выравниваний границы идентичных блоков примерно совпадают, что позволяет нам судить о достоверности выравнивания в этих блоках.

Таблица 1. Результаты сравнения выравниваний с выравниванием Seed
Выравнивание 1	Длина выравнивания 1	Выравнивание 2	Длина выравнивания 2	Количество идентичных колонок	Процент идентичных колонок от длины выравнивания 1	Процент идентичных колонок от длины выравнивания 2	Координаты идентичных блоков*	Координаты одиночных идентичных колонок**
Seed	121	Clustal Omega	115	62	51.2%	53.9%	1,13=1,13 21,31=21,31 45,54=42,51 74,83=69,78 91,94=87,90 109,121=103,115	15,15
Seed	121	Mafft	120	56	46.3%	46.7%	1,11=1,11 24,30=24,30 45,52=42,52 74,83=72,81 90,94=88,92 108,121=107,120	32,32
Seed	121	Muscle	114	49	40.5%	43.0%	1,11=1,11 22,31=22,31 45,53=42,50 90,92=85,87 95,96=90,91 109,121=102,114	17,17
*До знака "равно" координаты начала и конца блока в выравнивании 1, после — в выравнивании 2.
**Координата в выравнивании 1, координата в выравнивании 2.

Далее я сравнила выравнивания Clustal Omega, Mafft и Muscle между собой. Результаты можно видеть в Таблице 2. Наиболее схожи между собой выравнивания, полученные программами Clustal Omega и Mafft (59.1% и 56.7% идентичных колонок от длин выравниваний Clustal Omega и Mafft соответственно).

Таблица 2. Результаты попарного сравнения выравниваний
Выравнивание 1	Длина выравнивания 1	Выравнивание 2	Длина выравнивания 2	Количество идентичных колонок	Процент идентичных колонок от длины выравнивания 1	Процент идентичных колонок от длины выравнивания 2	Координаты идентичных блоков*	Координаты одиночных идентичных колонок
Clustal Omega	115	Mafft	120	68	59.1%	56.7%	1,11=1,11 24,30=24,30 42,49=45,52 65,83=68,86 87,96=89,98 103,115=108,120	—
Clustal Omega	115	Muscle	114	54	47.0%	46.4%	1,11=1,11 22,35=22,35 38,50=38,50 87,88=86,87 102,115=101,114	—
Mafft	120	Muscle	114	43	35.8%	37.7%	1,12=1,12 24,30=24,30 45,52=42,49 88,90=85,87 108,120=102,114	—
*До знака "равно" координаты начала и конца блока в выравнивании 1, после — в выравнивании 2.

Задание 3

Я выбрала следующие структуры, содержащие исследуемый мной домен: 1AON (цепь O, E. coli), 4PJ1 (цепь O, Homo sapiens) и 1HX5 (цепь A, Mycobacterium tuberculosis). Я создала структурное выравнивание (Рис. 1) в PyMol, взяв структуру 1AON за референсную. Затем экспортировала выравнивание последовательностей, полученное из выравнивания структур, и визуализировала его в Jalview вместе с выравниванием тех же последовательностей программой Clustal Omega (проект). Результаты сравнения этих выравниваний с помощью моей программы отражены в Таблице 3. Выравнивания отличаются примерно на столько же, на сколько различаются множественные выравнивания последовательностей, полученные с помощью разных программ. При этом видно, что выравнивание структур имеет значительно большую длину и, следовательно, подразумевает больше событий образования инделей.

structures — Рисунок 1. Выравнивание структур. Розовая цепь — 1AON, циановая — 4PJ1, оранжевая — 1HX5.

Таблица 3. Результаты сравнения выравнивания структур с выравниванием последовательностей
Выравнивание 1	Длина выравнивания 1	Выравнивание 2	Длина выравнивания 2	Количество идентичных колонок	Процент идентичных колонок от длины выравнивания 1	Процент идентичных колонок от длины выравнивания 2	Координаты идентичных блоков*	Координаты одиночных идентичных колонок**
Structure	155	Clustal Omega	116	68	43.9%	58.6%	13,22=11,20 65,77=42,54 92,104=63,75 112,117=80,85 122,133=88,99 139,150=105,116	82,57 87,61
*До знака "равно" координаты начала и конца блока в выравнивании 1, после — в выравнивании 2.
**Координата в выравнивании 1, координата в выравнивании 2.

Задание 4

Clustal Omega — опубликованная в 2011 году программа множественного выравнивания белковых последовательностей. Она относится к быстрым, обладает высокой точностью и позволяет создавать выравнивания более 10 тыс. последовательностей. Она осуществляет построение направляющего дерева не в результате попарного выравнивания всех последовательностей (сложность алгоритма N*N, где N — число последовательностей), а на основе подсчета расстояний каждой последовательности до референсных (их количество пропорционально logN, сложность алгоритма N*logN). Затем последовательности выравниваются по профилям Скрытых марковских моделей (HMM). У этой программы есть функции добаления новых последовательностей к выравниванию и использования существующих профилей НММ (например, указываются в записях Pfam) для выравнивания гомологичных последовательностей.

Источник: Sievers F, Wilm A, Dineen D, Gibson TJ, Karplus K, Li W, Lopez R, McWilliam H, Remmert M, Söding J, Thompson JD, Higgins DG. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 2011 Oct 11;7:539.