Практикум 9. Работа с выравниваниями

Задание 1.

При помощи конвейеров команд bash я получил список мнемоник белков, которые есть в обоих протеомах. Глазами я выбрал три красивых мнемоники - APT, DPPA, LEXA.

Я выровнял белки под каждой мнемоникой, взятые у двух бактерий при помощи программы needle. Результаты приведены в таблице.

Таблица с результатами выполнения первого задания.
Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Adenine phosphoribosyltransferase apt_ecoli apt_bacsu 441,5 50,3 61,2 13(7,1%) 3
D-aminopeptidase dppa_ecoli dppa_bacsu 31,0 10,5 15,9 413(67,6%) 17
LexA repressor lexa_ecoli lexa_bacsu 296,5 32,7 51,2 15(7,1%) 5

На деле видно, что dppa белок выравнивается совершенно безобразно. В одной из бактерий он вдвое короче чем в другой. Я решил выбрать ещё одну какую-нибудь мнемонику.

Задание 2.

Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Adenine phosphoribosyltransferase apt_ecoli apt_bacsu 450,0 56,2 66,7 0 0 88,52% 95,29%
D-aminopeptidase dppa_ecoli dppa_bacsu 50,5 32,3 46,8 12 3 11,40% 18,24%
LexA repressor lexa_ecoli lexa_bacsu 300,5 33,5 52,4 13 4 94,55% 95,61%

Задание 3. Глобальное и локальное выравнивание неродственных белков.

Результат работы water:

Результат работы needle:

Задание 4.

Для мнемоники APT (обозначает белок Adenine phosphoribosyltransferase в случае E. coli) я при помощи конвейера: infoseq 'sw:apt_*' -only -name -nohead -out absallapt.txt вывел все ID белков с этой мнемоникой в текстовый файл, потом при помощи конвейера cat absallapt.txt | wc -l посчитал количество строк. Всего в Uniprot нашлось 634 белка с этой мнемоникой.

Я отобрал несколько разных белков, по возможности из далёких систематических групп, импортировал последовательности их белков APT в JalView. Затем во вкладке Web Service->Alignment->Muscle with Defaults запустил множественное выравнивание последовательностей. Далее я раскрасил выравнвание по проценту идентичности.

В раскрашенном выравнивании очень хорошо видны консервативные колонки (17, 26, 31, 34, 36, 52, участок 70-74 и ещё немало). Также есть и очень вариативные участки (их много, но например 60-61, 15, 105, 112, 165)

Из наличия консервативных колонок в большом количестве, я делаю вывод, что все белки выравнивания гомологичны.

По ссылке можно посмотреть Jalview проект с выравниванием