Изыскания в программе BLAST
Программа BLAST на вход требует последовательность белка. Я воспользовался опцией указания AC из UniProt (для моего белка D4GTC1).
Параметр Job Title нужен для задания подписи к выравниванию.
Параметр Database определяет базу данных, по которой будет осуществлён поиск, в моё случае это SwissProt.
Дополнительно можно сузить поиск по таксономической единице при помощи поля Organism, я решил ограничиться белками Архей.
Из параметров алгоритма я решил изменить дефолтные длину слова (3) и ограничение по количеству выдаваемых результатов (10).
Получилось вот такое выравнивание.
Из него я решил отобрать для дальнейших манипуляций другие белки семейства CetZ из Haloferax volcanii (их как раз 5). Их множественное выравнивание через программу muscle с визуализацией в JalView иллюстрирует, что все они в действительности имеют достаточную степень идентичности. На это указывает, в частности, не менее 18% абсолютно идентичных (для всех белков) аминокислотных позиций, а также наличие общих для всех белков вариабельных участков (колонки 237-270 и 372-402).
Мной был выбран полипротеин вируса леса Семлики, который можно найти в Uniprot по следующим данным: ID POLN_SFV; AC P08411. Из продуктов разрезания меня заинтересовал мРНК-кэпирующий белок nsP1, занимающий позиции с 1 по 537 АК. Вот его последовательность в fasta-формате.
Выравнивание в BLAST обнаружило в качестве ближайших гомологов полипротеины из различных вирусов. Их выравнивание при помощи muscle в последующей визуализацией в JalView показывают очень высокий уровень схожести: более половины позиций содержат одну и ту же аминокислоту во всех белках.
При введении ограничения по вирусным белкам количество находок возросло с 26 до 28, пополнившись полипротеинами из двух штаммов вируса мозаики огурца.
Параметр E-value показывает, сколько белков с таким же или лучшим score ожидаемо могли бы быть получены при случайном поиске в базе данных. Соответственно, число записей в базе данных прямо пропорционально E-value.
Взяв за образец полипротеин из вируса полосатой мозаики ячменя, посчитаем, какую часть записей в SwissProt занимают записи о вирусных белках. Для этого найдём соотношение их E-value: 0,0007/0,017. Итого получается, что вирусные белки занимают примерно 4% SwissProt.