10. Программа BLAST

Задание 1

Мой белок-Multifunctional fusion protein, я искала похожие белки с помощью BLAST используя следующие параметры:
Databases-Standard databases
Database-UniProtKB/Swiss-Prot(swissprot)
Algorithm-blastp (protein-protein BLAST)
Max target sequences-100
Expect threshold-0.05
Word size-5
Matrix-BLOSUM62
Gap Costs-Existence:11 Extension:1
Compositional adjustments- Conditional compositional score matrix adjustment.
По данному запросу было найдено 767 белков. Полную текстовую выдачу программы можно найти по ссылке

ссылка

Для создания множественного выравнивания я выбрала 6 следующих белков:
A6UCL4.1 DHQS [Sinorhizobium medicae WSM419]
Q92ME7.1 DHQS [Sinorhizobium meliloti 1021]
Q98FY1.1 DHQS [Mesorhizobium japonicum MAFF 303099]
Q89XW8.1 DHQS [Bradyrhizobium diazoefficiens USDA 110]
B4RG33.1 DHQS [Phenylobacterium zucineum HLK1]
A6WXC7.1 DHQS [Brucella anthropi ATCC 49188]
Я их выровняла в Jalview с помощью Muscle with defaults. Результаты выравнивания

по ссылке

. По моему мнению все выбранные белки гомологичны, в связи с большим количество консервативных участков

Задание 2

Для этого задания я выбрала Polyprotein P1234 Organism: Sleeping disease virus (SDV)
ID POLN_SLDV
AC Q8QL53
В качестве зрелого белка я выбрала Protease nsP2;с координатами 562-1420
Я вырезала его последовательность с помощью EMBOSS следующей командой: seqret 'sw:POLN_SLDV[562:1420]' poln_sldv_segment2.fasta ссылка на последовательность
С данной последовательностью я проделала те же действия, что и в задании один. Полную текстовую выдачу программы вы можете найти по ссылке
Для создания множественного выравнивания я выбрала 5 белков со следующими:
non-structural polyprotein [Salmon pancreas disease virus] AYV92030.1
non-structural polyprotein, partial [Salmon pancreas disease virus] QZA74876.1
non-structural polyprotein, partial [Salmon pancreas disease virus] QZA74860.1
non-structural polyprotein, partial [Salmon pancreas disease virus] UIE35650.1
Nonstructural polyprotein [Sleeping disease virus] NP_598184.1
Выравнивание по ссылке
Белки можно назвать гомологичными, присутствует много протяженных консервативных кластеров

Задание 3

Список находок изменился: вместо 44 белков нашлось 50. E-value изменился для приблизительно половины белков, я выбрала
nsP4 [Ross river virus (STRAIN T48)]
E-Value для всех: 3e-60
E-Value для Viruses: 1e-61
Оценим долю вирусных белков в Swiss-Prot по формуле Карлина. Для оценки доли вирусов нужно разделить E-Value с вирусами на E-Value общее. Получим, что доля вирусов примерно 0.034
Доля вирусных белков в Swissprot составляет ~ 3%.