Изыскания в программе BLAST

Запуск BLAST

Программа BLAST на вход требует последовательность белка. Я воспользовался опцией указания AC из UniProt (для моего белка D4GTC1).

Параметр Job Title нужен для задания подписи к выравниванию.

Параметр Database определяет базу данных, по которой будет осуществлён поиск, в моё случае это SwissProt.

Дополнительно можно сузить поиск по таксономической единице при помощи поля Organism, я решил ограничиться белками Архей.

Из параметров алгоритма я решил изменить дефолтные длину слова (3) и ограничение по количеству выдаваемых результатов (10).

Получилось вот такое выравнивание.

Из него я решил отобрать для дальнейших манипуляций другие белки семейства CetZ из Haloferax volcanii (их как раз 5). Их множественное выравнивание через программу muscle с визуализацией в JalView иллюстрирует, что все они в действительности имеют достаточную степень идентичности. На это указывает, в частности, не менее 18% абсолютно идентичных (для всех белков) аминокислотных позиций, а также наличие общих для всех белков вариабельных участков (колонки 237-270 и 372-402).

Про один белок вируса леса Семлики
лесс
Лес Семлики, национальный парк в Уганде
Фото с сайта ugandasafari.com
лесс
Вирус леса Семлики под электронным микроскопом
Фото с сайта wikimedia.org, автор Gleiberg

Мной был выбран полипротеин вируса леса Семлики, который можно найти в Uniprot по следующим данным: ID POLN_SFV; AC P08411. Из продуктов разрезания меня заинтересовал мРНК-кэпирующий белок nsP1, занимающий позиции с 1 по 537 АК. Вот его последовательность в fasta-формате.

Выравнивание в BLAST обнаружило в качестве ближайших гомологов полипротеины из различных вирусов. Их выравнивание при помощи muscle в последующей визуализацией в JalView показывают очень высокий уровень схожести: более половины позиций содержат одну и ту же аминокислоту во всех белках.

Фокусы с E-value

При введении ограничения по вирусным белкам количество находок возросло с 26 до 28, пополнившись полипротеинами из двух штаммов вируса мозаики огурца.

Параметр E-value показывает, сколько белков с таким же или лучшим score ожидаемо могли бы быть получены при случайном поиске в базе данных. Соответственно, число записей в базе данных прямо пропорционально E-value.

Взяв за образец полипротеин из вируса полосатой мозаики ячменя, посчитаем, какую часть записей в SwissProt занимают записи о вирусных белках. Для этого найдём соотношение их E-value: 0,0007/0,017. Итого получается, что вирусные белки занимают примерно 4% SwissProt.