Практикум 10

Найдите в Swiss-Prot гомологи вашего белка

В упражнении 1 практикума 7 я выбрала белок C0QQX4.

При запуске BLAST были использованы следующие параметры:

Для того, чтобы найти потенциальных гомологов выбранного белка, я использовала его AC C0QQX4.

В качестве базы данных, в которой будут находиться потенциальные гомологи, я выбрала UniprotKB/Swiss-Prot (swissprot). Я не ставила фильтр по организмам. В Program selection алгоритм, который я выбрала для поиска, — blastp (protein-protein BLAST).

Algorithm parameters:

Max target sequences: 100

Expect threshold: 0.05

Word size: 3

Max matches in a query range: 0

Matrix: BLOSUM62

Gap Costs: Existence: 11 Extension: 1

Compositional adjustments: Conditional compositional score matrix adjustment

Фильтры я не применяла.

Далее среди результатов поиска я отобрала 7 находок для дальнейшего множественного выравнивания. Выравнивание я выполняла программой MUSCLE. Далее раскрасила по Clustal.

Я думаю, что все выбранные белки гомологичны, поскольку в выравнивании довольно много идентичных и схожих блоков.


Найдите в Swiss-Prot гомологи зрелого вирусного белка, вырезанного из полипротеина

Я выбрала полипротеин Tula orthohantavirus (TULV) (Tula virus, ID: GP_TULV; AC: P0DTJ1).

В записи Swiss-Prot в поле FT я нашла ключи CHAIN (это зрелые белки, на которые разрезается полипротеин). Среди них я выбрала белок Glycoprotein C с координатами 654-1141.

Я вырезала средствами EMBOSS последовательность зрелого белка в fasta-формате.

Команда, которой я это сделала: seqret sw:GP_TULV[654:1141] segment_vir.fasta


Поиск в BLAST

В качестве базы данных, в которой будут находиться потенциальные гомологи, я выбрала UniprotKB/Swiss-Prot (swissprot). Я не ставила фильтр по организмам. В Program selection алгоритм, который я выбрала для поиска, — blastp (protein-protein BLAST).

Algorithm parameters:

Max target sequences: 100

Expect threshold: 0.2

Word size: 3

Max matches in a query range: 0

Matrix: BLOSUM62

Gap Costs: Existence: 11 Extension: 1

Compositional adjustments: Conditional compositional score matrix adjustment

Фильтры я не применяла.

Далее среди результатов поиска я отобрала 7 находок для дальнейшего множественного выравнивания. Выравнивание я выполняла программой MUSCLE. Далее раскрасила по Clustal.

Для множественного выравнивания я выбирала находки с достаточно хорошими значениями E-value, но, тем не менее, выравнивание с помощью программы MUSCLE не показало большой процент сходства последовательностей, даже несмотря на то, что покрытие запроса почти у всех находок составляет 100%. Мне кажется, что так много гэпов в выравнивании и мало похожих блоков получилось не потому, что белки не гомологичны. Полипротеин, который я взяла, кодирует два гликопротеина: N и C. Возможно, у них есть похожие места, поэтому выбранный мною гликопротеин C частями выравнялся на гликопротеин N. И такое выравнивание с большим количеством гэпов получилось, потому что в итоге я случайно выравняла белки с разной доменной архитектурой.


Исследование зависимости E-value от объёма банка

Я повторила предыдущий поиск, оставив те же параметры BLAST, но теперь применила фильтр по организмам, ограничив поиск вирусами (Viruses). Список находок изменился: их стало больше на одну.

A6XIP3.1 поменял E-value по сравнению с предыдущим поиском (E-value было без фильтра 0.002, с фильтром стало 9e-05).

(9e-05) / (0.002) = 4.5% — доля вирусных белков в Swiss-Prot