Гомологи SSB protein DdrB

Таблица.1 Параметры, используемые при запуске BLAST
DatabaseUniProtKB/Swiss-Prot(swissprot)
Organismнет ограничений
Algorithmblastp (protein-protein BLAST)
Max target sequences50
Expect threshold10
Word size6
MatrixBLOSUM62
Gap CostsExistence 11 Extension 1
Результат можно посмотреть здесь.
Для выравнивания были выбраны 5 белков из 7 имеющихся: Multicopper oxidase abr1Conidial pigment biosynthesis oxidase abr1 (Q4WZB4.2), N-(5'-phosphoribosyl)anthranilate isomeraseMagnetospirillum magneticum AMB-1 (Q2W020.1),Polyadenylate-binding protein, cytoplasmic and nuclear Ustilago maydis 521 (Q4P8R9.1), Single-stranded DNA-binding protein DdrBDeinococcus geothermalis DSM 11300 (Q1J1N6.1 ), Single-stranded DNA-binding protein DdrBDeinococcus radiodurans R1 (Q9RY80.2). Выровняв их с SSB protein DdrB, мы получили следующее выравнивание.

Очень сложно говорить о гомологии данных белков, так как они скорей всего неконсервативны. Однако есть и гомологичные участки, например, 324,439,519,893.

Информация об аннотированном полипротеине

Таблица.2 Информация об аннотированном полипротеине Chikungunya virus
IDPOLN_CHIK3
ACQ5XXP4
Название вирусаChikungunya virus (strain 37997) (CHIKV)

Был выбран зрелый белок с названием Polyprotein P123. Координаты начала и конца в полипротеине: 1..1856. Чтобы вырезать в отдельный файл участок последовательности, используем комманду seqret. Командная строка, используемая на kodomo: 'sw:POLN_CHIK3[1:1856]' pr13.fasta

Fasta файл находится здесь: Fasta файл.
Таблица.3 Параметры, используемые при запуске BLAST(для белка вируса)
DatabaseUniProtKB/Swiss-Prot(swissprot)
Organismнет ограничений
Algorithmblastp (protein-protein BLAST)
Max target sequences100
Expect threshold10
Word size6
MatrixBLOSUM62
Gap CostsExistence 11 Extension 1
С результатом можно ознакомиться здесь.
Белки, выбранные для множественного выравнивания.
Файл в fasta формате был получен для множественного выранивания. После выравнивания вырезанного полипротеина с гомологичными белками и удаление всех букв находок, которые находятся до первой и после последней буквы, выровненной с какой-либо буквой исходного зрелого белка, получим следующее выравнивание.
В данном выравнивании последовательности белков абсолютно схожи на участках, некоторые из них: 4-19, 21-29, 31-57, 67-107, 177-217, 311-382. Это еще раз потверждает тот факт, что данные белки явялются гомологичными

Исследование зависимости E-value от объёма банка

При добавлении фильтров(viruses) количество находок уменьшилось с 88 до 75. Значение E-value линейно зависит от размера базы данных, его можно рассчитать по данной формуле: E-value = (mn)2^(-B) Исходя из этого, примерно оцениваем долю вирусных белков в Swissprot: (7e-07/3e-06)100%≈4% Следовательно, мы можем сделать вывод, что доля вирусных белков в Swissprot - около 4%