Практикум 10.

1. Поиск гомологичных белков в Swiss-prot

Была использована АТФ-зависимая 6-фосфофруктокиназа (ID:A0A0M0GMG0_9BACI) из седьмого практикума.
Параметры поиска были такими:

Получен результат: 241 последовательность (результат в виде текстовой выдачи программы).

Были выбраны 7 белков для скачивания последовательностей в fasta-формате:

Множественное выравнивание было построено с помощью методов из девятого практикума и с использованием команды

muscle -align pfka.fasta -output pfka_alignment.fasta

Согласно результатам (проект Jalview), все выбранные белки имеют достаточно большие консервативные участки и являются гомологами исходного белка.

2. Гомологи зрелого вирусного белка, вырезанного из полипротеина

Из результатов запроса (taxonomy_id:10239) AND (protein_name:polyprotein) AND (reviewed:true) был выбран белок Seoul virus (strain 80-39) (ID: GP_SEOU8; AC: P33455).
Далее был взят зрелый вирусный белок, называющийся Glycoprotein C и имеющий координаты 647..1133. Последовательность данного участка была записана в файл fasta-формата (файл с последовательностью) с помощью команды bash

seqret 'sw:gp_seou8[647:1133]' segment_gp.fasta

С помощью действий, аналогичных действиям в первом задании, в BLAST было получено 22 результата; были выбраны следующие семь: P33455.1 (исходная последовательность), P28728.1, P17880.1, P28729.1, P08668.1, P16853.1, P16493.1.
Затем в Jalview было построено множественное выравнивание, удалены все буквы находок, оказавшиеся по обе стороны от исходного зрелого белка (см. файл проекта). Видно, что фрагменты гомологичны практически по всей длине, встречаются не полностью консервативные столбцы, в основном, из-за другой аминокислоты в этих трех последовательностях: 08668.1, P16853.1, P16493.1 - в BLAST они имели наименьший (среди выбранных семи) процент покрытия.

3. Исследование зависимости E-value от объёма банка

Для последовательности зрелого вирусного белка было выполнено два поиска: в первом без указания организма, во втором с указанием. Параметры поиска для второго случая:

В обоих случаях было получено 22 результата. Однако во втором поиске, когда объем банка был меньше, было 4 результата, E-value каждого из которых снизился. Например, у последовательности Q8JSZ3.1 данное значение было в первом случае 0.005, а во втором - 2е-04.
Два случая различаются только размерами баз данных, т.е. отношение значений E-value равно отношению объемов банков. Таким образом, доля вирусных белков в Swiss-Prot около 4%.