Adil Mustafin

Практикум 10

Практикум по работе с программой BLAST

1. Поиск гомологов белка ЦТФ-синтазы из организма Natronomonas pharaonis в базе данных белковых последовательностей Swiss-Prot с помощью BLAST

При запуске программы BLAST в поле Enter Query Sequence был вставлен AC (Accession Code) изучаемого белка бактерии . Поиск гомологичных последовательностей осуществлялся по базе данных Swiss-Prot. Алгоритм, использующийся для построения множественного выраванивания — blastp (protein-protein BLAST). Дополнительные параметры поиска (Algorithm parameters), такие как число отображаемых находок (100), ограничение по E-value (0.05), размер слова (5), параметры вычисления веса (матрица замен BLOSUM62, Gap Open Penalty 11, Gap Extension Penalty 1) и прочие остались без изменений. Ccылка на текстовую выдачу программы. Далее были отобраны и выравнены первые 6 находок программы с исходным белком из запроса. Выравнивание проводилось с помощью программы muscle из пакета программ EMBOSS. Затем это множественное выравнивание было загружено в программу-редактор выравниваний JalView, где аминокислотные остатки из разных последовательностей были окрашены по проценту идентичности. Cсылка на проект. Так как были отобраны белки из выдачи с процентом идентичности не меньше 60%, то с очень высокой долей вероятности все они являются гомологичными, что хорошо видно по окрашенному выравниванию в JalView (очень много тёмно-синих столбцов, отображающих высокий Percentage Identity тех или иных аминокислотных остатков в выравнивании).

2. Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина

Для выполнения задания был выбран полипротеин из коронавируса летучей мыши (Bat coronavirus HKU5).
ID: R1A_BCHK5
AC: P0C6T5; A3EXC9
OS: Bat coronavirus HKU5 (BtCoV) (BtCoV/HKU5/2004)
Среди белков был выбран фермент кэпирования РНК (RNA-capping enzyme subunit nsp9). Его координаты 4219-4328. Cсылка на на вырезанную последовательность в fasta-формате. После аналогичных первому разделу практикума действий в BLAST было получено 40 последовательностей.Cсылка на текстовую выдачу. Cсылка на отредактированный проект в JalView.После удаления букв находок, находящихся по обе стороны от исходного зрелого белка, ясно видно, что оставшиеся фрагменты высоко гомологичны (за исключением некоторых стобцов с низкой идентичностью). Последовательности P0C6W4.1 и P0C6T5.1, K9N638.1 и K9N7C7.1, P0C6F7.1 и P0C6W1.1, P0C6W3.1 и P0C6T4.1 попарно абсолютно идентичны.

3. Исследование зависимости E-value от объёма банка

Был взят зрелый белок “Pipistrellus bat coronavirus HKU5”. По результатам поиска гомологичных белков без ограничения по таксону было выявлено 58 находок. Последовательность белка была изучена на наличие гомологов в программе BLAST сначала без использования фильтра на таксономию, а затем с фильтром на таксон: Viruses (taxid:10239). В первом запросе значение E-value: 2e-73 , во втором: 4e-72. Исходя из формулы для E-value, для нахождения доли вирусных белков в Swiss-Prot мы должны поделить значение E-value первого запроса на Е-value второго запроса. Таким образом мы получим, что доля вирусных белков составляет: 5% .

4. Сравнение интерфейсов BLAST

Сравнительный анализ веб-интерфейсов BLAST на платформах NCBI, EBI и UniProt демонстрирует существенные различия в их функциональности, выборе баз данных и способах представления результатов. Выбор конкретного ресурса зависит от стоящих перед исследователем задач: так, UniProt оптимален для работы с аннотированными последовательностями в рамках собственной экосистемы (UniProtKB, UniRef, UniParc) и удобен в тех случаях, когда не требуется сложная настройка параметров поиска.
В противовес ему, EBI предлагает наиболее широкий спектр баз данных, включая узкоспециализированные (например, EnsemblCOVID19 или AlphaFold PDB), что делает его незаменимым при поиске гомологов в редких ресурсах. EBI также лидирует по гибкости настроек выравнивания (Advanced parameters), позволяя пользователю самостоятельно выбирать формат выдачи и варьировать длину слова, в то время как инструменты NCBI позволяют более тонко настраивать фильтры, а UniProt ограничивается лишь базовыми опциями. Значительные различия наблюдаются и в программном инструментарии: если на сайтах EBI и UniProt возможности поиска ограничены прямым сравнением белков или нуклеотидов, то на NCBI доступны программы для трансляционного поиска (blastn, tblastx, tblastn), что позволяет учитывать влияние посттрансляционных модификаций и проводить более глубокий анализ. Наконец, формат выдачи результатов также отражает специализацию ресурсов: NCBI предоставляет наиболее детализированную статистику с разделением на Max Score и Total Score и широкими возможностями сортировки данных, тогда как EBI позволяет интегрировать результаты с алгоритмами множественного выравнивания, а UniProt придерживается максимально лаконичного формата, отображая лишь ключевые показатели (Score, E-value, длину и Identity).

Таким образом, для узких биоинформатических задач по трансляционному поиску предпочтителен NCBI, для работы со специфическими базами данных и сложными параметрами выравнивания лучше подходит EBI, а для быстрой проверки известных белковых семейств наиболее удобен интерфейс UniProt.