Практикум по работе с программой BLAST
1. Поиск гомологов белка ЦТФ-синтазы из организма Natronomonas pharaonis в базе данных белковых последовательностей Swiss-Prot с помощью BLAST
При запуске программы BLAST в поле Enter Query Sequence был вставлен AC (Accession Code) изучаемого белка ЦТФ-синтазы из галоалкалифильной археи Natronomonas pharaonis.
Поиск гомологичных последовательностей осуществлялся по базе данных Swiss-Prot. Алгоритм, использующийся для построения множественного выраванивания — blastp (protein-protein BLAST).
Дополнительные параметры поиска (Algorithm parameters), такие как число отображаемых находок (100), ограничение по E-value (0.05), размер слова (5), параметры вычисления веса (матрица замен BLOSUM62,
Gap Open Penalty 11, Gap Extension Penalty 1) и прочие остались без изменений.
Ссылка на текстовую выдачу программы.
Далее были отобраны и выравнены первые 6 находок программы с исходным белком из запроса. Выравнивание проводилось с помощью программы muscle из пакета программ EMBOSS. Затем это множественное
выравнивание было загружено в программу-редактор выравниваний JalView, где аминокислотные остатки из разных последовательностей были окрашены по проценту идентичности.
Ссылка на проект. Так как были отобраны белки из выдачи с процентом идентичности не меньше 60%, то с очень высокой
долей вероятности все они являются гомологичными, что хорошо видно по окрашенному выравниванию в JalView (очень много тёмно-синих столбцов, отображающих высокий Percentage Identity тех или иных аминокислотных
остатков в выравнивании).
2. Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина
Для выполнения задания был выбран полипротеин из коронавируса летучей мыши (Bat coronavirus HKU5).
ID: R1A_BCHK5
AC: P0C6T5; A3EXC9
OS: Bat coronavirus HKU5 (BtCoV) (BtCoV/HKU5/2004)
Среди белков, на которые разрезается полипротеин, был выбран один под названием "Папаин-зависимая протеаза nsp3" (Papain-like protease nsp3). Его координаты: 852...2830. Ссылка на вырезанную последовательность в fasta-формате. Далее с этим белком были проделаны все те же действия, что и в пункте 1. Ссылка на текстовую выдачу. Ссылка на отредактированный проект в JalView.
3. Исследование зависимости E-value от объёма банка
По результатам поиска гомологичных белков без ограничения поиска по таксону было выявлено 76 находок, при ограничении же поиска в кладе вирусов была найдена лишь 61 находка. Долю вирусных белков можно оценить следующим образом: исходя из формулы расчёта E-value, нетрудно заметить, что в обоих варианта поиска единственное, что изменится в формуле — это размер базы данных, а потому мы можем получить прямую зависимость n1/n2 = E1/E2. Выбрав произвольную находку, а именно белок с АС P0C6U2.1, с E-value при поиске без ограничения на таксон 3е-39 и с ограничением на поиск исключительно среди вирусов 1е-40, нетрудно вычислить, что n1/n2 = 1*10^-40/3*10^-39 = 0.0333 = 3.33%. Итого: Список находок изменился. Доля вирусных белков в Swiss-Prot равна примерно 3.33%.
4. Сравнение интерфейсов BLAST
Сравниваемые интерфейсы BLAST на сайтах NCBI, EBI и UniProt имеют свои различия как в предоставляемых параметрах, так и в представлении результатов.
Например, в UniProt количество возможных для выбора баз данных
ограниченно лишь теми, которые входят в состав UniProtKB, или же непосредственно связаны с ней (UniRef50, UniRef90, UniRef100, UniParc). В BLAST на сайте EBI, наоборот, представленно значительно большее
разнообразие баз данных, нежели чем на сайте NCBI и тем более UniProt. Использовать BLAST именно на сайте EBI может быть полезно, когда требуется провести поиск гомологов в редко используемых базах данных
(например, EnsemblCOVID19, Enzyme Portal, AlphaFold PDB и др.).
В программе BLAST на сайтах EBI и UniProt можно производить поиск только по последовательностям белков или ДНК/РНК, а в BLAST на сайте NCBI можно, например, искать гомологи белка из транслированной
нуклеотидной последовательности (есть программы blastn, tblastx, tblastn, которые недоступны на сайте EBI).
Возможно, это может быть полезно использовать для учёта влияния посттрансляционных модификаций белка. Также стоит отметить, что на сайте NCBI даже внутри Protein BLAST есть возможность выбора алгоритма
поиска, что позволяет более гибко подстраивать параметры запроса...
Параметры выравнивания (Advanced parameters, или просто Parameters) наибольшего разнообразия достигают в программе BLAST на сайте EBI (можно, например, выбрать сразу формат выдачи, или выбрать произвольное
значение длины слова), на сайте NCBI их немного меньше (нельзя выбрать произвольное значение длины слова, однако, например, можно более тонко настроить фильтр), на сайте UniProt представлены только общие параметры
поиска. BLAST на сайте UniProt очень удобно использовать, когда нет необходимости тонко подстраивать параметры под запрос.
Выдача на всех трёх сайтах тоже имеет свои отличия. Например, в NCBI есть два отдельных столбца Max Score и Total Score, в то время как на остальных сайтах есть один единственный столбец Score.
На сайте NCBI также доступно больше значений для сортировки выдачи (не только по таксономии, как на других сайтах). Однако на EBI, например, можно выбрать алгоритм множественного выравнивания и тем самым
сравнить результаты выдачи. В UniProt выдача весьма примитивна — отображаются лишь Score, E-value, длина находки и Identity.
5. Поиск "гомологов" бессмысленной последовательности
Для выполнения данного задания была использована программа makeprotseq из пакета программ EMBOSS, генерирующая заданное число рандомных аминокислотных последовательностей заданной длины.
В первом запросе была введена последовательность длиной 25 аминокислотных остатков, выбрана база данных UniProtKB/Swiss-Prot, значение E-value равное 10, длина слова равная 5, матрица
аминокислотных замен BLOSUM62.
По результатам поиска было найдено 10 белков с E-value меньше 10 (от 0.1 до 8.6) с процентом идентичности от 62.5 до 72.5%.
Результаты по ссылке. При сокращении длины слова до 3 и 2 букв результаты поиска не изменились.
При использовании в запросе последовательности длиной 60 аминокислот программа находит от 2 до 4 белков с разным значением E-value. Ссылка на текстовую выдачу.
Наконец, при длине запроса 100 аминокислот была обнаружены единственная находка с E-value равным 0.16. Ссылка.
Вес во всех выравниваниях не превышал или лишь немного премышал значения 30, то есть был очень маленьким. Видно, что значение E-value прямопропорционально зависит от длины последовательности запроса.