Мой белок из бактерии Psychrobacter alimentarius - 4-hydroxy-3-methylbut-2-enyl diphosphate reductase (ID A0A144Q000_9GAMM)
Всего к моему белку BLAST выдал 330 последовательностей.
Ссылка на текстовую выдачу тут.
Я выбрала 7 белков с разным процентом идентичности.
Ссылка на выравнивание с 8 последовательностями тут
В выравнивании есть сильно отличающийся белок - ISPH_PROM4 - который резко отличается по длине. У него меньше совпадений с другими белками, однако в самых консервативных участках, где совпадают аминокислоты (по 2-3 подряд) у всех белков, он также хорошо выровнен. Я думаю, его можно назвать гомологичным, если учесть, что он сильнее всего изменился в эволюции (возможно, раньше всех отделился от остальных или его организм чем-то принципиально отличается от других). Белок ISPH_SULDN также сильнее отличается - у него есть пропущенный консервативный кластер и меньше всего совпадений в остальных кластерах, однако так же, как у предыдущего, в целом в самых консервативных участках он похож на остальные, поэтому его с тем же предположением можно назвать гомологичным. Остальные 5 белков гомологичны - у них 8 достаточно крупных консервативных участка (длиной 7-16 АК) и сходные размеры, поэтому эти белки очень похожи и можно назвать их гомологичными.
ID: ENV_GALV
AC: P21415
OS: Gibbon ape leukemia virus (GALV)
Name: Transmembrane protein
Coordinates: [490:670]
Вырезала с помощью descseq
descseq -seq 'sw:env_galv[490:670]' -out segm.fasta -name "Transmembrane protein" -desc "OS=Gibbon ape leukemia virus (GALV) Short=TM GN=env"
Я также выбрала из выдачи белки с разным процентном идентичности. Так же, как и в предыдущем случае, 6 белков однозначно можно назвать гомологичными, так как у них выделяются очень болшьие консервативные кластеры (длиной больше 40 АК). У двух белков более сложная ситуация, так как в выравнивании у них присутствует большое количество гэпов. Так, например, у EFC2_HUMAN, весь самый крупный консервативный кластер заполнен гэпами, но в другом участке есть большое количество совпадающих АК. Это единственный белок человека, поэтому такое отличие понятно, и в принципе белок можно назвать гомологичным (с учетом раннего отделения от остальных). У ENV_WMSV напротив, совпадения только в самом консервативном большом кластере, но в остальных местах гэпы. Но так как высокий процент идентичности в консервативном кластере, его тоже считаем гомологичным. Получается, что все найденные белки гомологичны.
При поиске по всем организмам: 80 последовательностей
При поиске по Viruses: 54 последовательности
E-value изменился для многих (оставшихся) белков, я выбрала Cas-Br-E murine leukemia virus.
E-Value для всех: 5e-69
E-Value для Viruses: 2e-70
Оценим долю вирусных белков в Swiss-Prot. По теореме Карлина меняется только размер базы данных n (Вес, длина исходной последовательности, константы не изменились). Поэтому для оценки доли вирусов нужно разделить E-Value при n для Swiss-Prot только с вирусами на n всего Swiss-Prot. Получим, что доля вирусов примерно 0.04 (4%).