Программа BLAST

Гомологи белка Chaperone protein DnaK

Нахождение гомологов белка A0A7C5N0S8_9GAMM из Thiolapillus brandeum было произведение при помощи программы BLAST из базы данных Swiss-Prot. Последовательность находится в базе данных TrEMBL, в программу она была подана в fasta-формате.

При запуске BLAST параметры, которые были использованы остались по умолчанию:

Максимальное количество выровненных последовательностей для отображения: 100

Ожидаемое количество случайных совпадений: 0.05

Длина слова:5

Максимальное количество совпадений в диапазоне запроса: 0

Матрица для оценки выравнивания пар остатков: BLOSUM62

Стоимость гэпов: появление:11 расширение:1

Корректировка матрицы для компенсации аминокислотного состава последовательностей: корректировка матрицы с помощью условной композиционной оценки

Ссылка на текстовую выдачу программы

Было отобрано 6 гомологичных белков (DNAK_COXBN,DNAK_AZOSB,DNAK_PSEA8,DNAK_PSEMY,DNAK_FRAT1,DNAK_NITEC) и построено множественное выравнивание для сравнения с hsp70 у Thiolapillus brandeum. По результатам выравнивания, оказалось, что белок hsp70 у Thiolapillus brandeum имеет сильно меньше общих участков, чем у остальных белков в выравнивании. Вероятно, такой низкий процент совпадающих аминокислотных остатков в последовательности можно объяснить тем, что все, помимо участков"IIGIDLGTTNSC","AKRQAVTN " играет менее важную роль в структуре и функционировании белка теплового шока.

Ссылка на проект в Jalview

Гомологи зрелого вирусного белка

Pol polyprotein

ID POL_FIVT2

AC P31822

OS Feline immunodeficiency virus (isolate TM2) (FIV)

Зрелый белок

Integrase

Начало- 844

Конец- 1124

Fasta-файл последовательности зрелого белка

Для гликопротеина было найдено 100 гомологов, из которых QKI31773.1, ABX25830.1, AAB49923.1, QIG37961.1, ABO69489.1, AHI42099.1, были выбраны для выравнивания. Проект в jalview с вырезанными буквами доступен по ссылке.

выдача BLAST

Исследование зависимости E-value от объёма банка

Так как почти все находки имели машинный ноль в E-value, то был повышено до 5000 максимальное количество последовательностей. Поиск среди вирусов привел к изменению значения E-value в 22,5 раз.Так как E-value прямо пропорционален размеру базы, в которой ведется поиск, то можно предположить,что база вирусов меньше в 22,5 раз, чем база всех последовательностей.Список находок изменился, вместо 430 белков нашлось 153.

Рис. 1. E-value среди вирусов.
Рис. 2. E-value без фильтра по таксону.