Практикум 10. BLAST

1. Поиск гомологов белка

Белок, выбранный в 7 практикуме: сирогем-синтаза (id: A0A4P9K5Y7_9GAMM). В пункте Database указал UniProtKB/SwissProt(swissprot), все параметры раздела Alhorithm Parameters (длина слова, матрица и т.п.) я оставил без изменений, в качестве запроса указывалась fasta-последовательность. Поиск по роду Thiomicrorhabdus привел к 151 находкам, из них я выбрал 6 находок, первая из которых – последовательность исходной сирогем-синтазы, а остальные 5 – найденные и имеющие значение E-value от 10-150 до 10-110.
Ссылки на полную выдачу и на выдачу только с выбранными белками.

Было выполнено выравнивание программой mafft. Хотя в выравнивании и были сильно различающиеся участки (например: позиции 53-64), значительное количество позиций были консервативными (например: 246-264, 312-326). С учетом множества других схожих позиций, последовательности можно считать гомологичными
Ссылка на Jalview-проект

2. Поиск гомологов зрелого вирусного белка среди белков всех организмов

Выбранный полипротеин (изменен при исправлении): POL_CAEVC, принадлежит вирусу козьего артрита-энцефалита CAEV-Co. Для рассмотрения я использовал второй ключ CHAIN, соответствующий обратной транскриптазе, то есть с 153 по 865 аминокислоту. fasta-файл с последовательностью был получен с помощью команды
seqret sw:PP62_ASFB7[2:158] pp2-158.fasta
Таблица 1. Информация о полипротеине pp62.
IDPOL_CAEVC
ACP33459
OSCaprine arthritis encephalitis virus (strain Cork) (CAEV-Co)

BLAST выдал 378 результата, среди которых большая часть принадлежала различным штаммам ВИЧ. Я рассмотрел 7 из них. Аналогично предыдущему заданию, было выполнено выравнивание программой mafft, однако на вход я подал отдельно созданный fasta-файл, состоящий из содержимого файла зрелого вирусного белка и короткого fasta-вывода BLAST (в общей сложности 8 последовательностей).

Белки имеют множество схожих участков, например: 98-108 и 175-184. Хотя у 5 из 8 последовательностей присутствовал большой индель на позициях 567-695, остальные части имели множество схожих позиций, поэтому эти последовательности также можно считать гомологичными.
Ссылка на проект Jalview.

3. Исследование зависимости E-value от объёма банка

Выдача BLAST изменилаcь, находок стало 159. Для сравнения E-value была выбрана находка Q73368.3. При поиске по всему банку значение E-value составляет 10-112, а при поиске среди вирусов – 4*10-114. Зная, что в обоих случаях значения длины последовательности m и счета выравнивания s, и предполагая, что константы k и λ одинаковы, можно определить, что доля вирусных белков составлят около 4% (то есть одну двадцать пятую часть).

Рис 1. Расчёт доли вирусных белков среди всех белков Swiss-prot. n1 и n2 – размер всей базы данных белков и её части с вирусными белками соответственно.