В упражнении 1 практикума 7 я выбрала белок C0QQX4.
При запуске BLAST были использованы следующие параметры:
Для того, чтобы найти потенциальных гомологов выбранного белка, я использовала его AC C0QQX4.
В качестве базы данных, в которой будут находиться потенциальные гомологи, я выбрала UniprotKB/Swiss-Prot (swissprot). Я не ставила фильтр по организмам. В Program selection алгоритм, который я выбрала для поиска, — blastp (protein-protein BLAST).
Algorithm parameters:
Max target sequences: 100
Expect threshold: 0.05
Word size: 3
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension: 1
Compositional adjustments: Conditional compositional score matrix adjustment
Фильтры я не применяла.
Далее среди результатов поиска я отобрала 7 находок для дальнейшего множественного выравнивания. Выравнивание я выполняла программой MUSCLE. Далее раскрасила по Clustal.
Я думаю, что все выбранные белки гомологичны, поскольку в выравнивании довольно много идентичных и схожих блоков.
Я выбрала полипротеин Tula orthohantavirus (TULV) (Tula virus, ID: GP_TULV; AC: P0DTJ1).
В записи Swiss-Prot в поле FT я нашла ключи CHAIN (это зрелые белки, на которые разрезается полипротеин). Среди них я выбрала белок Glycoprotein C с координатами 654-1141.
Я вырезала средствами EMBOSS последовательность зрелого белка в fasta-формате.
Команда, которой я это сделала: seqret sw:GP_TULV[654:1141] segment_vir.fasta
В качестве базы данных, в которой будут находиться потенциальные гомологи, я выбрала UniprotKB/Swiss-Prot (swissprot). Я не ставила фильтр по организмам. В Program selection алгоритм, который я выбрала для поиска, — blastp (protein-protein BLAST).
Algorithm parameters:
Max target sequences: 100
Expect threshold: 0.2
Word size: 3
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension: 1
Compositional adjustments: Conditional compositional score matrix adjustment
Фильтры я не применяла.
Далее среди результатов поиска я отобрала 7 находок для дальнейшего множественного выравнивания. Выравнивание я выполняла программой MUSCLE. Далее раскрасила по Clustal.
Для множественного выравнивания я выбирала находки с достаточно хорошими значениями E-value, но, тем не менее, выравнивание с помощью программы MUSCLE не показало большой процент сходства последовательностей, даже несмотря на то, что покрытие запроса почти у всех находок составляет 100%. Мне кажется, что так много гэпов в выравнивании и мало похожих блоков получилось не потому, что белки не гомологичны. Полипротеин, который я взяла, кодирует два гликопротеина: N и C. Возможно, у них есть похожие места, поэтому выбранный мною гликопротеин C частями выравнялся на гликопротеин N. И такое выравнивание с большим количеством гэпов получилось, потому что в итоге я случайно выравняла белки с разной доменной архитектурой.
Я повторила предыдущий поиск, оставив те же параметры BLAST, но теперь применила фильтр по организмам, ограничив поиск вирусами (Viruses). Список находок изменился: их стало больше на одну.
A6XIP3.1 поменял E-value по сравнению с предыдущим поиском (E-value было без фильтра 0.002, с фильтром стало 9e-05).