Гомологи белка
В практикуме 7 был выбран белок Aspartate-semialdehyde dehydrogenase (AC: A0A2N3KSG3) бактерии Thalassospira marina.
Параметры при запуске BLAST:
- Database: UniProtKB/Swiss-Prot(swissprot)
- Enter Query Sequence:последовательность протеина в формате fasta
- Algorithm: blastp (protein-protein BLAST)
- Max target sequences: 100
- Expect threshold: 0.05
- Word size: 3
- Max matches in a query range: 0
- Matrix: BLOSUM62
- Gap Costs: Existence: 11 Extension: 1
- Compositional adjustments: Conditional compositional score matrix adjustment
- Filter, Mask: был выбран "Low complexity regions "
Для множественного выравнивания были выбраны 5 белков: AAC07674.1; BAA10869.1; AAA22383.1;AAQ00858.1; AAC46292.1 (DHAS_BACSU;DHAS_SYNY3;DHAS_PROMA;DHAS_AQUAE;DHAS_LEGPN)
Они были сопоставлены при помощь Muscle. Из результатов видно, что все выбранные белки имеют гоиологисные участки по всем длинее выравнивания.
Гомологи вирусного белка:
Запрос в UniProtKB: (taxonomy_id:12059) AND (protein_name:polyprotein)
taxonomy_id:12059 указывает на Enterovirus, возбудителей группы острых кишечных болезней, в том числе полиомелит.
По запросу было найдено 46 аннотированых вирусов. Я выбрала Protease 3C
ID:POLG_POL32; AC:P06209;
В строчках FT была найдена цепь для Protease 3C. Она кодируется на участке 1002..1108.
E-value:
Так как нам известна формула для нахождения E-value. Так как ни один параметр кроме размера базы данных не изменился, следовательно можно рассматривать изменение в E-value, как на изменение размера базы данных.
примеры изменениия E-value:
1e-62/4e-61 = 0.025 = 2.5%
1e-27/4e-26 = 0.025 = 2.5%
6.29e-39/2.33e-37 = 0.027 = 2.7%
В результате получилось примерно 2.6% базы данных заняты вирусами