Поиск гипотетических гомологов изучаемого белка в разных банках
Поиск по Swiss-Prot | Поиск по PDB | Поиск по "nr" | |
Лучшая находка (в принципе должна соответствовать заданному белку) | |||
Accession | O31465.1 | NP_388125.1 | 3AGF_A |
E-value | 0.0 | 0.0 | 0.0 |
Вес (в битах) | 680 | 680 | 680 |
Процент идентичности | 100% | 100% | 100% |
Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1e-10) | 157 | 1462 | 9 |
Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1) | |||
Номер находки в списке описаний | 158 | 1468 | 9 |
Accession | Q5ZT34.2 | YP_702926.1 | 3UNW_A |
E-value | 0.13 | 0.064 | 1e-45 |
Вес (в битах) | 37.0 | 40.4 | 164 |
% идентичности | 34% | 42% | 35% |
% сходства | 49% | 63% | 55% |
Длина выравнивания | 59 | 48 | 286 |
Координаты выравнивания (от-до, в запросе и в находке) | 119-177 и 215-266 | 3-49 и 91-138 | 30-311 и 172-444 |
Число гэпов | 7 | 1 | 17 |
1 - Исходный белок найти удалось, о чём можно судить по 100 процентной идентичности и соответствующим ID и AC
2 - Наибольшее число явных гомологов наблюдается в банке nr, что неудивительно, ведь nr включает в себя все белковые последовательности из всевозможных источников (в первую очередь Swiss-Prot и аннотации кодирующих участков генов в GenBank). В банке PDB было найдено сравнительно мало данных, потому что немного белков были подвергнуты рентгеноструктурному анализу для выявления их пространственной структуры
3 - В PDB было найдено 15 белков, E value последнего - 9.0. В nr всего 1482, а E value последнего - 10.0. В банке Swiss-Prot было найдено 170, а E value последнего равно 9.9. Во всех случаях ограничение было по E value (порог 10). Максимальное число результатов во всех случаях достигало 2000.
Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
На мой взгляд лучшим гомологом в данном случае будет белок Glutaminase из Clostridiun tetani представителя Clostridia (другой класс того же отдела Firmicutes).
Номер находки в списке описаний | 1 |
Accession | Q898A3.1 |
E-value | 1e-94 |
Вес (в битах) | 280 |
% идентичности | 44% |
% сходства | 65% |
Длина выравнивания | 312 |
Координаты выравнивания (от-до, в запросе и в находке) | 17-327 и 5-306 |
Число гэпов | 11 |
Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями
Для получения частичного и полного выравнивания я воспользовался программами water и needle, соответственно. Я задал им параметры, которые были произвольно настроены у blastp, а именно: за открытие гэпа - штраф 11, за продление - 1.
В частичном выравнивании получился вес, равный 686, что меньше, чем у такового в blastp (716). Длина частичного выравнивания 307, а идентичность и похожесть вместе с числом гэпов очень схожи.
Полное выравнивание имеет меньший вес из этих трёх (679), и также имеет 23 гэпа (7%).
Вообще, результаты получились предсказуемыми. Ведь похожие результаты у blastp и water связаны с тем, что обе программы основаны на алгоритмах для частичных выравниваний. В полном оптимальном выравнивании, построенным программой needle, видно что начало верхней последовательности сильно съехало относительно начала второй. Это и повлекло за собой соответствующие штрафы за гэпы.
№1
Дополнил соответствующий раздел. Можете посмотреть в моих семестрах по ссылке "Описание программ"
№2
Изменил параметры поиска в Swiss Prot. Штраф за открытие гэпа - 9, за продление - 2. Пороговое значение E value - 0.001. В итоге самым лучшим гомологом вновь оказался тот же самый белок, но score теперь уже 710. Пороговое число выдачи было равно 100. Самый последний результат имел E value 2e-51. Поменяем максимум выдачи на 1000. В итоге он выдаёт 157 результатов. Самый последний имеет E value 4e-26