Карань Анна
студентка факультета биоинженерии и бионформатики

Поиск по сходству. Построение парных выравниваний.

Задание 1

В этом задании необходимо собрать выборку гомолого моего белка - Q9JYV4_NEIMB, Aminopeptidase N из Neisseria meningitidis M58. Это очень распространенная и хорошо изученная патогенная бактерия, как и очень многие виды из этого рода, поэтому всего получается гомологов больше 5000 тысяч. Исходя из этого я ограничила поиск гомологов бактериями, а потом эукариотами, однако и в этом случае гомологов было сильно больше. Следующей стадиев было ограничений таксоном Animalia (чтобы получить более менее разнообразную выборку я решила выбирать далекие организмы, т.е. не ограничиваться семейством своей бактерии, а брать таксоны эукариот. Однако, и среди Animalia Blast обнаружил чуть больше 4000 гомологов. Пришлось ограничиться гомологами в таксоне Insecta, хотя даже и в нем их 1350.

Таблица 1. Некоторые характеристики найденной выборки гомологов
Число находок1350
Находки гомологичные белку по всей длине (query cover > 80%)2

Теперь посмотрим уже конкретные характеристики некоторых найденных гомологов (Таблица 2)

Таблица 2. Характеристика 3-х находок (лучшей, худшей и средней)
ЛучшаяСредняяХудшая
Название последовательности puromycin-sensitive aminopeptidase-like [Bombus impatiens] leukotriene A-4 hydrolase isoform X1 [Amyelois transitella] aminopeptidase N-like [Harpegnathos saltator]
Длина выравнивания872280
bit score808 bits (2087)77.4 (189)35.4 bits (80)
% идентичных остатков426/872(49%)104/417(25%)19/80(24%)
% сходных остатков567/872(65%)171/417(41%)39/80(48%)
E-value0.09e-139.9
Ссылка на выравнивание, которое построил blast Alignment Alignment Alignment

Критерий гомологичности целой последовательности: E-value < 1e-3, Query cover > 70%. Этот критерий не истинен на все 100%, но для общей картины более менее точен, если найдутся какие-то явные отклонения, то дальше они будут указаны.
Сохраненная из blast стратегия поиска
Гомологами целой последовательности можно назвать только 2 первых находки, где query cover 99%, а E-value равен 0.0, уже у следующих query cover чуть больше 40%, что никак не удовлетворяет критерию гомологичности целой последовательности.

Задание 2

В этом задании из выборки 20-30 гомологов нужно посроить множественное выравнивание. Так как выборка очень разнообразна, и были взяты не только находки с высоким E-value, то естественно, что выравнивание будет не очень хорошим, тем более целых 20 не очень похожих последовательностей, поэтому в выравнивании я отмечатала не вертикальные блоки, а блоки хотя бы для половины последовательностей (иначе там ни одного вертикального блока)
*критерии блока и вертикального блока описаны при выполнении прошлого практикума - 10 практикум

Рис.1 Выравнивание 20 гомологов моего белка, выдаваемых Blast, раскрашенное по схеме BLOSUM62. В строке разметки block отмечены найденные блоки.

Выравнивание в формате: FASTA, MSF
Найдено 5 блоков, и есть еще отдельные абсолютно консерватиные и абсолютно функционально консерватиные колонки. Если сравнить с результатами 10 практикума для негомологичных последовательностей, то видно, что в данном случае выравнивание намного лучше, больше блоков, и в общем консерватиных колонок, что говорит о гомологичности найденных последовательностей, для некоторых хотя бы частично.
Однако и на N-, и на C-концах есть длинные невыровненные участки, что связано с тем, что blast выдает последовательности гомологичные не только по всей длине, но и частично (у последней последовательности query cover равен 8%.

Задание 3

Полученные выранивания в fasta формате:
глобальное (выданное needle)
локальное (выданное water)
локальное (выданное BLAST)

Задание 4

Рис.2 Выравнивание полученных выравниваний

Как видно на Рис.2 участок, найденный программами всеми программами, совпадает, т.е. выравнен одинакого.
Однако, ести и участки, где выранивания радикально отличаются. (Рис. 3)

Рис.3 Участок, где выравнивания отличаются

На этом участке именно четко видно, что выравнивания разные, а не просто были неправильно совмещены колонки и раставлены гэпы в выравниваниях, потому что, если найти одинаковую часть в последовательности моего белка (2-я последовательность в каждом выранивании), то можно увидеть, что выравнена она с разными участками второй последовательности. (Здесь противопоставляются глоабльное выравнивание, полученное после сокращение множественного, и полученное программой water. Думаю, что такое отличие связано с тем, что первое выравнивание строилось еще с опорой на 20 выравниваний, а второе только на основе 2-х, конечно, для достаточно различющихся последовательностей они не могли получиться одинаковыми.

Задание 5

В этом задании нужно сделать тоже, что и в 3-4 заданиях только для двух негомологичных последовательностей ( моего белка и какого-то, с которым работает любой другой студент)

Рис.4 Выравнивание полученных с помощью программ needle и water выравниваний для моего белка и белка NP_820762.2

Почти все локальное выравнивание совпадает с таковым участком в глобальном, однако есть отличие только в самом конце примерно в 20 аминокислот, а все локальное выравнивание больше 300.
Проэкт Jalview с окнами: скачать здесь
- множественное выравнивание 20 находок
- выравнивание выравниваний моего белка и плохо (дальнего) гомолога
- выравнивание выравниваний моего белка и негомологичного ему белка


©Карань Анна, 2015