Практикум 10
1. Гомологи белка
В 7 задании я использовал фермент Subtilisin (ID:”SUBT_BACPU”) (EC=3.4.21.62). Для выполнения 10 задания я скачал его с UniProtKB в формате fasta и загрузил на NCBI.
Параметры программы:
Standard
-Database: UniProtKB/Swiss-Prot(swissprot)
Program Selection
-Algorithm: blastp (protein-protein BLAST)
Algorithm parameters
General Parameters:
- Max target sequences: 100
- Expect threshold: 0.05
- Word size: 5
- Max matches in a query range: 0
Scoring Parameters:
- Matrix: BLOSUM62
- Gap Costs: Existence: 11 Extension: 1
- Compositional adjustments: Conditional compositional score matrix adjusment
Программа показала ровно 100 результатов, поэтому я изменил Max target sequences со 100 до 500 и получил 274 результата. Далее я повторял поиск меняя параментры Word size (изменил значение с 5 на 6). Число результатов стало 296.
Дальше я выбрал первые 5 белков выдачи BLAST и выровнял их в Jalview
2. гомологи зрелого вирусного белка, вырезанного из полипротеина
Для 2 задания я выбрал полипротеин вируса Seoul virus (strain 80-39)
- ID: GP_SEOU8
- AC: P33455
- OS: Seoul virus (strain 80-39)
В записи Swiss-Prot я выбрал зрелый белок /note="Glycoprotein C" с координатами 647..1133.
Я его вырезал командой seqret 'sw:gp_seou8[647:1133]' gp_seou8.fasta в отдельный файл.
Файл с последовательностью Glycoprotein C я поместил в BLAST и получил 22 результата.
Как видно из выравнивания все 6 последовательностей гомологичны, так как имеется большое число консервативных участков.
3. Исследование зависимости E-value от объёма банка
Я запустил поиск белков в UniProt, оставив только фильтр на вирусы Viruses (taxid:10239). Число находок не изменилось.
E-value (отличный от нуля) изменился у 4 находок. Например, у последовательности Q8JSZ3.1 он изменился с 0.005 на 2e-04. По формуле 0.005/(2*10^-4)*100% получается 0,25. То есть доля вирусных белков составляет 2,5%.