Практикум 10. Программа BLAST

1. Поиск в Swiss-Prot гомологов белка Р04958.

При запуске программы BLAST в поле Enter Query Sequence был введен АС изучаемого белка P04958 (Tetanus toxin бактерии Clostridium tetani E88 в практикуме 7). Поиск гомологичных последовательностей для данного белка осуществлялся из базы данных Swiss-Prot. Также в качестве алгоритма был выбран blastp. Остальные поля, в том числе и дополнительные параметры (Algorithm parameters), были оставлены без изменений.

* Max target sequences - 100

* Short queries - выбрана автоматическая настройка

* Expect threshold - 0,05

* Word size - 5

* Max matches in a query range - 0

* Matrix - BLOSUM62

* Gap costs - Existence:11, Extension:1

* Compositional adjustments - Conditional compositional score matrix adjustment

Текстовая выдача программы расположена в файле .

Результатом выдачи являются 23 последовательности, из которых были выбраны пять для дальнейшего множественного выравнивания: P0DPK1.1, A0A242DI27.1, A0A5P3XKQ1.1, P46082.1, Q06366.1 . Множественное выравнивание проводилось на kodomo при помощи программы выравнивания muscle. Для этого был создан файл prak10_1.fasta с исходным белком и выбранными белками. После чего, используя команду, приведенную ниже, было произведено выравнивание.

 muscle -align prak10_1.fasta -output prak10_alignment.fasta 

Результат выравнивания представлен в файле с проектом Jalview.

Все белки во множественном выравнивании были оставлены, поскольку являются гомологами белка Р04958, хоть и имеют достаточно низкий процент идентичности. Однако у всех белков данное значение превышает 20%, что позволяет сделать вывод об их гомологии. Также данные белки при множественном выравнивании имеют достаточно много сходных участков, что подтверждается проектом Jalview.


2. Поиск в Swiss-Prot гомологов зрелого вирусного белка, вырезанного из полипротеина.

При запросе на сайте Uniprot: Human immunodeficiency virus type 1 по полю "Taxonomy" и "polyprotein" по полю "Protein Name" было выдано 125 аннотированных полипротеинов, из которых был выбран полипротеин

ID: ENV_HV192

AC: O12164

Название вируса (OS): Human immunodeficiency virus type 1 group M subtype C (isolate 92BR025)

В записи Swiss-Prot в поле FT по ключам CHAIN было найдено 3 зрелых белка, на которые разрезается полипротеин. Из них был выбран белок - Transmembrane protein gp41 с координатами 505...856. Средствами EMBOSS была вырезана последовательность данного зрелого белка, которая сохранена в файле .

При запуске программы BLAST в поле Enter Query Sequence была подана вырезанная последовательность зрелого белка - Transmembrane protein gp41. Поиск гомологичных последовательностей для данного белка осуществлялся из базы данных Swiss-Prot. Результатом выдачи является 81 последовательность. Текстовая выдача программы расположена в файле . Из этих последовательностей для дальнейшего множественного выравнивания были выбраны пять: Р04579.1, Р12488.1, Р04583.1, Р05878.1, Р05877.1

Результат выравнивания представлен в файле с проектом Jalview.

Все белки во множественном выравнивании были оставлены,поскольку являются гомологами исходного (О12164). Процент идентичности достаточно высокий, что подтверждается интенсивной синей окраской большинства участков множественного выравнивания в проекте Jalview.


3. Исследование зависимости Е-value от объема банка.

Предыдущий поиск был повторен, с теми же параметрами BLAST, но применив фильтр по организмам, ограничив поиск вирусами (Viruses). Список находок (81 полипротеин) не изменился. Е-value практически во всех белках уменьшился (улучшился). Например, у Р04583.1 было 7*10^(-179), стало 3*10^(-180), что позволяет оценить долю вирусных белков в Swiss-Prot равную 4,3%.