BLAST

Поиск гомологов белка

Мой белок из бактерии Psychrobacter alimentarius - 4-hydroxy-3-methylbut-2-enyl diphosphate reductase (ID A0A144Q000_9GAMM)

Параметры поиска BLAST

Всего к моему белку BLAST выдал 330 последовательностей.

Ссылка на текстовую выдачу тут.

Множественное выравнивание

Я выбрала 7 белков с разным процентом идентичности.

Ссылка на выравнивание с 8 последовательностями тут

В выравнивании есть сильно отличающийся белок - ISPH_PROM4 - который резко отличается по длине. У него меньше совпадений с другими белками, однако в самых консервативных участках, где совпадают аминокислоты (по 2-3 подряд) у всех белков, он также хорошо выровнен. Я думаю, его можно назвать гомологичным, если учесть, что он сильнее всего изменился в эволюции (возможно, раньше всех отделился от остальных или его организм чем-то принципиально отличается от других). Белок ISPH_SULDN также сильнее отличается - у него есть пропущенный консервативный кластер и меньше всего совпадений в остальных кластерах, однако так же, как у предыдущего, в целом в самых консервативных участках он похож на остальные, поэтому его с тем же предположением можно назвать гомологичным. Остальные 5 белков гомологичны - у них 8 достаточно крупных консервативных участка (длиной 7-16 АК) и сходные размеры, поэтому эти белки очень похожи и можно назвать их гомологичными.

Гомологи зрелого вирусного белка из полипротеина

Полипротеин

ID: ENV_GALV

AC: P21415

OS: Gibbon ape leukemia virus (GALV)

Зрелый белок

Name: Transmembrane protein

Coordinates: [490:670]

Вырезала с помощью descseq

descseq -seq 'sw:env_galv[490:670]' -out segm.fasta -name "Transmembrane protein" -desc "OS=Gibbon ape leukemia virus (GALV) Short=TM GN=env"

Ссылка на fasta-файл

Ссылка на выравнивание

Я также выбрала из выдачи белки с разным процентном идентичности. Так же, как и в предыдущем случае, 6 белков однозначно можно назвать гомологичными, так как у них выделяются очень болшьие консервативные кластеры (длиной больше 40 АК). У двух белков более сложная ситуация, так как в выравнивании у них присутствует большое количество гэпов. Так, например, у EFC2_HUMAN, весь самый крупный консервативный кластер заполнен гэпами, но в другом участке есть большое количество совпадающих АК. Это единственный белок человека, поэтому такое отличие понятно, и в принципе белок можно назвать гомологичным (с учетом раннего отделения от остальных). У ENV_WMSV напротив, совпадения только в самом консервативном большом кластере, но в остальных местах гэпы. Но так как высокий процент идентичности в консервативном кластере, его тоже считаем гомологичным. Получается, что все найденные белки гомологичны.

Зависимость E-Value от объема банка

При поиске по всем организмам: 80 последовательностей

При поиске по Viruses: 54 последовательности

E-value изменился для многих (оставшихся) белков, я выбрала Cas-Br-E murine leukemia virus.
E-Value для всех: 5e-69
E-Value для Viruses: 2e-70

Оценим долю вирусных белков в Swiss-Prot. По теореме Карлина меняется только размер базы данных n (Вес, длина исходной последовательности, константы не изменились). Поэтому для оценки доли вирусов нужно разделить E-Value при n для Swiss-Prot только с вирусами на n всего Swiss-Prot. Получим, что доля вирусов примерно 0.04 (4%).