Построение парных выравниваний. Поиск по сходству

Задание 1

В этом задании при помощи BLAST я искала гомологи белка предполагаемой b-фосфорилазы гликогена бактерии Saccharophagus degradans (RefSeq ID WP_011467389.1). Стратегию поиска можно посмотреть здесь. Я решила использовать поиск среди бактерий, хотя он и выдаёт 3482 результата, что больше тысячи. Поскольку у бактерий распространён горизонтальный перенос генов, то я решила не ограничивать поиск определённым таксоном бактерий. Поиск гомологов среди эукариот дал очень мало результатов (29) с плохими значениями E-value (5e-74 для худшего результата). Поиск по эукариотам доступен здесь. Итак, я использовала поиск по бактериям и получила 3482 результата. Нашлось много находок с query cover > 80 % (то есть гомологичных исходному белку по всей длине). Гомологами целой последовательности (согласно критерию E-value < 1e-3 и Query cover >= 70 %) являются 793 последовательности (были отобраны вручную).

Ниже в таблице представлены результаты поиска для трёх находок (лучшая, средняя и худшая)

ПараметрЛучшаяСредняяХудшая
Название последовательностиNdvB protein [Paenibacillus sp. FSL H7-0357]cation tolerance protein CutA [Polaromonas glacialis]hypothetical protein [Thiorhodovibrio sp. 970]
Длина выравнивания7952732118
Bit score1087 bits(2812)176 bits(445)37.4 bits(85)
% идентичных остатков496/794(62%)175/675(26%)16/66(24%)
% сходных остатков617/794(77%)278/675(41%)31/66(46%)
E-value0.06e-427.3
Выравнивание, построенное BLASTFASTAFASTAFASTA

Задание 2

Требовалось построить множественное выравнивание 20-30 гомологов из полученной выборки. Для построения выравнивания были взяты последовательности с разными значениями E-value, поэтому выравнивание получилось не очень хорошим, особенно плохо выровнены N- и C-концы. Это связано с тем, что BLAST ищет гомологи не всей последовательности, но и её отдельных фрагментов. У многих из выровненных последовательностей query cover существенно меньше 100 %, то есть они гомологичны лишь небольшому фрагменту исходной последовательности. Тем не менее, в средней части выравнивания удалось обнаружить 5 блоков, что свидетельствует о том, что найденные последовательности действительно являются гомологами (в построенном в прошлом практикуме выравнивании заведомо негомологичных последовательностей не было найдено ни одного блока).

Скачать выравнивание:

в формате fasta

в формате MSF

Задание 3

Локальное выравнивание моего белка и худшей находки, выданное BLAST, можно посмотреть в таблице в задании 1.

Глобальное выравнивание, выданное needle

Локальное выравнивание, выданное water

Локальное выравнивание, полученное из множественного

Задание 4

Ниже представлено полученное выравнивание четырёх выравниваний, указанных в задании 3. Первое выравнивание - глобальное, было получено из множественного. Второе выравнивание - глобальное, выданное программой water; третье выравнивание - локальное, полученное программой needle, четвёртое - локальное выравнивание, построенное BLAST. Во всех четырёх выравниваниях первая последовательность - последовательность моего белка, а вторая - худшая находка при поиске гомологов в BLAST.

Скачать выравнивание:

в формате fasta

в формате MSF

Можно видеть, что результаты глобальных выравниваний в целом схожи, и локальное выравнивание, полученное water, тоже совпадает с ними во многих позициях. Однако выравнивания, полученные water и BLAST, довольно сильно различаются (см. рис. ниже).

Задание 5

Были построены выравнивания моего белка и белка с идентификатором NP_274428.1. Было построено парное глобальное выравнивание при помощи Muscle, глобальное при помощи needle и локальное при помощи water. Верхее выравнивание - Muscle, среднее - needle, последнее - water. Далее три выравнивания были также выровнены.

Скачать выравнивание:

в формате fasta

в формате MSF

Как видно, белки обнаруживают некоторую гомологию.

Скачать проект


© Елизавета Минина 2015