МГУ

Учебная страница
Жуковой Надежды

Студентки факультета биоинженерии
и биоинформатики МГУ им. Ломоносова

ФББ

В данном практикуме мы познакомились с глобальным, локальным и множественным выравниваниями последовательностей.
Были использованы следующие команды пакета Emboss:
needle – глобальное выравнивнивание по алгоритму Нидельмана-Вунша;
water – локальное выравнивание по алгоритму Смита-Вотермана;
muscle - множественное выравнивание;
infoseq – информация;

Задание №1
Сравнение выравнивания гомологичных белков и негомологичных белков

В данном задании надо было найти белки относящиеся к E. Coli и в базе данных Uniprot, определить, какие из них гомологичны (имеют одинаковую мнемонику), а какие - нет (имеют разную мнемонику). Затем нужно было построить выравнивания каждой пары белков, используя два алгоритма.
Файл со всеми белками был получен командами:
infoseq 'sw:*ecoli' -only -name -length -out ECOLI.txt
infoseq 'sw:*bacsu' -only -name -length -out BACSU.txt
Затем с помощью скрипта на питоне было получено некоторое количество мнемоник гомологичных и негомологичных белков:



Для сравнения были выбраны следующие гомологичные белки:
AGAL_ECOLI & AGAL_BACSU - Alpha-galactosidase (451 а.о.; 432 а.о.)
ADPP_ECOLI & ADPP_BACSU - ADP-ribose pyrophosphatase (209 а.о.; 185 а.о.)
ACP_ECOLI & ACP_BACSU - Acyl carrier protein (78 а.о.; 77 а.о.)
ACCD_ECOLI & ACCD_BACSU - Acetyl-coenzyme A carboxyl transferase subunit beta (304 а.о.; 290 а.о.)
6PGL_ECOLI & 6PGL_BACSU - 6-phosphogluconolactonase (331 а.о.; 349 а.о.)

И следующие негомологичные белки:
ADEC_ECOLI & 6PGDH_BACSU - Adenine deaminase, 6-phosphogluconate dehydrogenase (588 а.о.; 468 а.о.)
ABDH_ECOLI & AAPA_BACSU - Gamma-aminobutyraldehyde dehydrogenase, Amino-acid permease (474 а.о.; 462 а.о.)
AAAT_ECOLI & 53DR_BACSU - L-amino acid N-acetyltransferase, 5'(3')-deoxyribonucleotidase (162 а.о.; 172 а.о.)
3PASE_ECOLI & ACDA_BACSU - Inorganic triphosphatase, Acyl-CoA dehydrogenase (433 а.о.; 379 а.о.)
AAER_ECOLI & 3MGA_BACSU - HTH-type trascriptional activator, DNA-3-methyladenine glycosylase (309 а.о.; 303 а.о.)

Далее были произведены непосредственно локальное и глобальное выравнивания с помощью команд:

needle sw:agal_ecoli sw:agal_bacsu agal.needle -auto
needle -aformat fasta sw:agal_ecoli sw:agal_bacsu agal-n.fasta
water sw:agal_ecoli sw:agal_bacsu agal.water -auto
water -aformat fasta sw:agal_ecoli sw:agal_bacsu agal-w.fasta

Выравнивания были также сохранены в формате .fasta для более простого подсчета количества инделей.
Результаты проделанной работы можно наблюдать в таблице.

Выводы

При глобальном выравнивании гомологичных белков процент схожести (Similarity) и соответствия (Identity) в среднем на 5% ниже, чем при локальном. А глобальное выравнивание негомологичных белков по данным параметрам уступает их локальному выравниванию почти в два раза. Вес глобального выравнивания (Score) в среднем сравним с весом локального выравнивания гомологичных белков, но отличается примерно на 2 порядка в сравнении с выравниванием негомологичных белков. Количество инделей в среднем меньше у гомологичных белков. Кроме того, как известно, чем больше покрытие (Coverage), тем более последовательность как целое гомологично другому белку, тем меньше произошло больших инсерций или делеций. В глобальных выравниваниях процент покрытия в среднем выше, чем в локальных, особенно явно это можно заметить при сравнении негомологичных белков.

Задание №2
Отличия в парных выравниваниях последовательностей одних и тех же белков, построенных разными программами

Множественное выравнивание

В этом задании было необходимо найти белки с одинаковой мнемоникой (была выбрана мнемоника 53dr_) и выбрать 5 из них с наиболее схожими длинами. Поиск был осуществлен с помощью команды:

infoseq 'sw:53dr_*' -only -name -length -out 53dr.txt

И после выбора пяти белков преобразован в fasta-формат командой:

seqret @53dr.txt 53dr.fasta

Далее было произведено множественное выравнивание командой muscle. Результат в формате fasta был импортирован в одно окно Jalview. Затем была произведена раскраска колонок в режиме Clustal.
Визуализацию выравнивания в программе Jalview можно видеть ниже:



Сравнение выравниваний

В данной части задания были сравнены три выравнивания: множественное пяти выше представленных белков, глобальное парное двух самых далеких из них и локальное парное выравнивание этих же белков. Для парного выравнивания были выбраны белки: 53DR_BPSPB и 53DR_BORPA. Выравнивания были получены коммандами needle (глобальное), water (локальное) и muscle (множественное).
Визуализацию всех трех выравниваний в программе Jalview можно видеть ниже:

Глобальное выравнивание (needle)



Локальное выравнивание (water)



Множественное выравнивание (muscle)



Сравнение всех трех выравнваний можно видеть ниже:



Отличия:

1. У needle есть гэп (62-89 ак), которого нет у muscle
2. У needle и water, в отличие от muscle, есть гэп (167-168 ак)
3. Muscle, в отличие от needle и water, не делает индель (119-130 ак)