Гомологи SSB protein DdrB
Таблица.1 Параметры, используемые при запуске BLAST |
Database | UniProtKB/Swiss-Prot(swissprot) |
Organism | нет ограничений |
Algorithm | blastp (protein-protein BLAST) |
Max target sequences | 50 |
Expect threshold | 10 |
Word size | 6 |
Matrix | BLOSUM62 |
Gap Costs | Existence 11 Extension 1 |
Результат можно посмотреть
здесь.
Для выравнивания были выбраны 5 белков из 7 имеющихся: Multicopper oxidase abr1
Conidial pigment biosynthesis oxidase abr1 (Q4WZB4.2), N-(5'-phosphoribosyl)anthranilate isomerase
Magnetospirillum magneticum AMB-1 (Q2W020.1),Polyadenylate-binding protein, cytoplasmic and nuclear
Ustilago maydis 521 (Q4P8R9.1), Single-stranded DNA-binding protein DdrB
Deinococcus geothermalis DSM 11300 (Q1J1N6.1 ), Single-stranded DNA-binding protein DdrB
Deinococcus radiodurans R1 (Q9RY80.2).
Выровняв их с
SSB protein DdrB, мы получили
следующее выравнивание.
Очень сложно говорить о гомологии данных белков, так как они скорей всего неконсервативны. Однако есть и гомологичные участки, например, 324,439,519,893.
Информация об аннотированном полипротеине
Таблица.2 Информация об аннотированном полипротеине Chikungunya virus |
ID | POLN_CHIK3 |
AC | Q5XXP4 |
Название вируса | Chikungunya virus (strain 37997) (CHIKV) |
Был выбран зрелый белок с названием Polyprotein P123. Координаты начала и конца в полипротеине: 1..1856. Чтобы вырезать в отдельный файл участок последовательности, используем комманду seqret. Командная строка, используемая на kodomo: 'sw:POLN_CHIK3[1:1856]' pr13.fasta
Fasta файл находится здесь:
Fasta файл.
Таблица.3 Параметры, используемые при запуске BLAST(для белка вируса) |
Database | UniProtKB/Swiss-Prot(swissprot) |
Organism | нет ограничений |
Algorithm | blastp (protein-protein BLAST) |
Max target sequences | 100 |
Expect threshold | 10 |
Word size | 6 |
Matrix | BLOSUM62 |
Gap Costs | Existence 11 Extension 1 |
С результатом можно ознакомиться
здесь.
Белки, выбранные для множественного выравнивания.
Файл в fasta формате был получен для множественного выранивания.
После выравнивания вырезанного полипротеина с гомологичными белками и удаление всех букв находок, которые находятся до первой и после последней буквы, выровненной с какой-либо буквой исходного зрелого белка, получим
следующее выравнивание.
В данном выравнивании последовательности белков абсолютно схожи на участках, некоторые из них: 4-19, 21-29, 31-57, 67-107, 177-217, 311-382. Это еще раз потверждает тот факт, что данные белки явялются гомологичными
Исследование зависимости E-value от объёма банка
При добавлении фильтров(viruses) количество находок уменьшилось с 88 до 75.
Значение E-value линейно зависит от размера базы данных, его можно рассчитать по данной формуле: E-value = (mn)2^(-B)
Исходя из этого, примерно оцениваем долю вирусных белков в Swissprot: (7e-07/3e-06)100%≈4%
Следовательно, мы можем сделать вывод, что доля вирусных белков в Swissprot - около 4%