"Blast"

Поиск гипотетических гомологов изучаемого белка в разных банках

Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"
Лучшая находка (в принципе должна соответствовать заданному белку)
Accession O31465.1 NP_388125.1 3AGF_A
E-value 0.0 0.0 0.0
Вес (в битах) 680 680 680
Процент идентичности 100% 100% 100%
Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1e-10) 157 1462 9
Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний 158 1468 9
Accession Q5ZT34.2 YP_702926.1 3UNW_A
E-value 0.13 0.064 1e-45
Вес (в битах) 37.0 40.4 164
% идентичности 34% 42% 35%
% сходства 49% 63% 55%
Длина выравнивания 59 48 286
Координаты выравнивания (от-до, в запросе и в находке) 119-177 и 215-266 3-49 и 91-138 30-311 и 172-444
Число гэпов 7 1 17

1 - Исходный белок найти удалось, о чём можно судить по 100 процентной идентичности и соответствующим ID и AC

2 - Наибольшее число явных гомологов наблюдается в банке nr, что неудивительно, ведь nr включает в себя все белковые последовательности из всевозможных источников (в первую очередь Swiss-Prot и аннотации кодирующих участков генов в GenBank). В банке PDB было найдено сравнительно мало данных, потому что немного белков были подвергнуты рентгеноструктурному анализу для выявления их пространственной структуры

3 - В PDB было найдено 15 белков, E value последнего - 9.0. В nr всего 1482, а E value последнего - 10.0. В банке Swiss-Prot было найдено 170, а E value последнего равно 9.9. Во всех случаях ограничение было по E value (порог 10). Максимальное число результатов во всех случаях достигало 2000.

Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

На мой взгляд лучшим гомологом в данном случае будет белок Glutaminase из Clostridiun tetani представителя Clostridia (другой класс того же отдела Firmicutes).

Номер находки в списке описаний 1
Accession Q898A3.1
E-value 1e-94
Вес (в битах) 280
% идентичности 44%
% сходства 65%
Длина выравнивания 312
Координаты выравнивания (от-до, в запросе и в находке) 17-327 и 5-306
Число гэпов 11

Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями

Выравнивание BLASTp
Оптимальное частичное выравнивание тех же белков
Оптимальное полное выравнивание тех же белков

Для получения частичного и полного выравнивания я воспользовался программами water и needle, соответственно. Я задал им параметры, которые были произвольно настроены у blastp, а именно: за открытие гэпа - штраф 11, за продление - 1.

В частичном выравнивании получился вес, равный 686, что меньше, чем у такового в blastp (716). Длина частичного выравнивания 307, а идентичность и похожесть вместе с числом гэпов очень схожи.

Полное выравнивание имеет меньший вес из этих трёх (679), и также имеет 23 гэпа (7%).

Вообще, результаты получились предсказуемыми. Ведь похожие результаты у blastp и water связаны с тем, что обе программы основаны на алгоритмах для частичных выравниваний. В полном оптимальном выравнивании, построенным программой needle, видно что начало верхней последовательности сильно съехало относительно начала второй. Это и повлекло за собой соответствующие штрафы за гэпы.

"Дополнительное задание"

№1

Дополнил соответствующий раздел. Можете посмотреть в моих семестрах по ссылке "Описание программ"

№2

Изменил параметры поиска в Swiss Prot. Штраф за открытие гэпа - 9, за продление - 2. Пороговое значение E value - 0.001. В итоге самым лучшим гомологом вновь оказался тот же самый белок, но score теперь уже 710. Пороговое число выдачи было равно 100. Самый последний результат имел E value 2e-51. Поменяем максимум выдачи на 1000. В итоге он выдаёт 157 результатов. Самый последний имеет E value 4e-26