Практикум 10

Гомологи белка DNA repair protein RecN (Uniprot AC:A0A6C0SN64)

Параметры поиска BLAST:

Database: UniProtKB/Swiss-prot

Max target sequences: 50

Short queries: Yes

Matrix: BLOSUM62

Gap costs: Existence: 11 Extension: 1

Max matches in a query range: 0

Word size: 5

Algorithm: blastp

Max matches in a query range: 0

Compositional adjustments: Conditional compositional score matrix adjustment

Organism: Citrobacter tructae (taxid:2562449) (exclude)

Поиск был по последовательности белка в формате fasta

Полученные значения были отсортированы по E-value. txt

Далее первые 7 белков были скачаны в формате FASTA, выравнены через программу MUSCLE with Defaults в Jalview вместе с исходным белком и покрашены по Percentage Identity. В выравнивании видно консервативные блоки: 23-49, 448-458, 504-519. На основе этого можно сделать вывод, что последовательности гомологичны. выравнивание белок выдача BLAST

Гомологи зрелого вирусного белка, вырезанного из полипротеина

Был выбран вирус Human astrovirus-1 (HAstV-1) с ID: CAPSD_HASV1 и AC: O12792.

Была выбрана цепь Spike protein VP27 с координатами: 394..648 Далее с помощью команды seqret 'sw:capsd_hasv1[394:648]' seq10.fasta была скачана последовательность, а далее найдены гомологи через BLAST с теми же параметрами. Найдено 9 последовательностей (включая данну.), далее были проедены действия, что и в пункте 1.

В выравнивании видно много консервативных блоков: 4-15, 34-41, 52-59, 118-128, 140-147. Из этого можно сделать вывод, что белки гомологичны.

выравнивание данная последовательность выдача BLAST

Исследование зависимости E-value от объёма банка

Было проведен поиск через BLAST с теми же параметрами но еще и фильтром по организмам Viruses. Было выбрано E-value Mamastrovirus 3 и посчитана доля последовательностей вирусных белков от всех записей в Swissprot:

\[ \frac{n_{\text{вир}}}{n_{\text{общ}}} = \frac{E\text{-value}_{\text{вир}} \cdot 2^{B_{\text{вир}}}}{E\text{-value}_{\text{общ}} \cdot 2^{B_{\text{общ}}}} = \frac{e \cdot 10^{-4} \cdot 2^{336}}{0.003 \cdot 2^{336}} \]
\[ = \frac{e}{0.003} \cdot \frac{10^{-4}}{1} \cdot \frac{2^{336}}{2^{336}} = \frac{e}{3 \cdot 10^{-3}} \cdot 10^{-4} = \frac{e}{30} \approx 0.0906 \]
Результат: ≈ 0.0906

Получается, что доля последовательностей вирусных белков от всех записей в Swissprot составляет 9,06%