При запуске программы BLAST в поле Enter Query Sequence был введен АС изучаемого белка P04958 (Tetanus toxin бактерии Clostridium tetani E88 в практикуме 7). Поиск гомологичных последовательностей для данного белка осуществлялся из базы данных Swiss-Prot. Также в качестве алгоритма был выбран blastp. Остальные поля, в том числе и дополнительные параметры (Algorithm parameters), были оставлены без изменений.
* Max target sequences - 100
* Short queries - выбрана автоматическая настройка
* Expect threshold - 0,05
* Word size - 5
* Max matches in a query range - 0
* Matrix - BLOSUM62
* Gap costs - Existence:11, Extension:1
* Compositional adjustments - Conditional compositional score matrix adjustment
Текстовая выдача программы расположена в файле .
Результатом выдачи являются 23 последовательности, из которых были выбраны пять для дальнейшего множественного выравнивания: P0DPK1.1, A0A242DI27.1, A0A5P3XKQ1.1, P46082.1, Q06366.1 . Множественное выравнивание проводилось на kodomo при помощи программы выравнивания muscle. Для этого был создан файл prak10_1.fasta с исходным белком и выбранными белками. После чего, используя команду, приведенную ниже, было произведено выравнивание.
muscle -align prak10_1.fasta -output prak10_alignment.fasta
Результат выравнивания представлен в файле с проектом Jalview.
Все белки во множественном выравнивании были оставлены, поскольку являются гомологами белка Р04958, хоть и имеют достаточно низкий процент идентичности. Однако у всех белков данное значение превышает 20%, что позволяет сделать вывод об их гомологии. Также данные белки при множественном выравнивании имеют достаточно много сходных участков, что подтверждается проектом Jalview.
При запросе на сайте Uniprot: Human immunodeficiency virus type 1 по полю "Taxonomy" и "polyprotein" по полю "Protein Name" было выдано 125 аннотированных полипротеинов, из которых был выбран полипротеин
ID: ENV_HV192
AC: O12164
Название вируса (OS): Human immunodeficiency virus type 1 group M subtype C (isolate 92BR025)
В записи Swiss-Prot в поле FT по ключам CHAIN было найдено 3 зрелых белка, на которые разрезается полипротеин. Из них был выбран белок - Transmembrane protein gp41 с координатами 505...856. Средствами EMBOSS была вырезана последовательность данного зрелого белка, которая сохранена в файле .
При запуске программы BLAST в поле Enter Query Sequence была подана вырезанная последовательность зрелого белка - Transmembrane protein gp41. Поиск гомологичных последовательностей для данного белка осуществлялся из базы данных Swiss-Prot. Результатом выдачи является 81 последовательность. Текстовая выдача программы расположена в файле . Из этих последовательностей для дальнейшего множественного выравнивания были выбраны пять: Р04579.1, Р12488.1, Р04583.1, Р05878.1, Р05877.1
Результат выравнивания представлен в файле с проектом Jalview.
Все белки во множественном выравнивании были оставлены,поскольку являются гомологами исходного (О12164). Процент идентичности достаточно высокий, что подтверждается интенсивной синей окраской большинства участков множественного выравнивания в проекте Jalview.
Предыдущий поиск был повторен, с теми же параметрами BLAST, но применив фильтр по организмам, ограничив поиск вирусами (Viruses). Список находок (81 полипротеин) не изменился. Е-value практически во всех белках уменьшился (улучшился). Например, у Р04583.1 было 7*10^(-179), стало 3*10^(-180), что позволяет оценить долю вирусных белков в Swiss-Prot равную 4,3%.