1. Поиск гомологов белка эндонуклеазы CRISPR-Cas9 из организма Francisella tularensis subsp. novicida в базе данных белковых последовательностей Swiss-Prot с помощью BLAST
При запуске программы BLAST в поле Enter Query Sequence был вставлен AC (Accession Code) изучаемого белка бактерии Francisella tularensis subsp. novicida . Поиск гомологичных последовательностей осуществлялся по базе данных Swiss-Prot. Алгоритм, использующийся для построения множественного выраванивания — blastp (protein-protein BLAST). Дополнительные параметры поиска (Algorithm parameters), такие как число отображаемых находок (100), ограничение по E-value (0.05), размер слова (5), параметры вычисления веса (матрица замен BLOSUM62, Gap Open Penalty 11, Gap Extension Penalty 1) и прочие остались без изменений. Ccылка на текстовую выдачу программы. Далее были отобраны и выравнены первые 6 находок программы с исходным белком из запроса. Выравнивание проводилось с помощью программы muscle из пакета программ EMBOSS. Затем это множественное выравнивание было загружено в программу-редактор выравниваний JalView, где аминокислотные остатки из разных последовательностей были окрашены по проценту идентичности. Cсылка на проект. Так как были отобраны белки из выдачи с процентом идентичности не меньше 60%, то с очень высокой долей вероятности все они являются гомологичными, что хорошо видно по окрашенному выравниванию в JalView (очень много тёмно-синих столбцов, отображающих высокий Percentage Identity тех или иных аминокислотных остатков в выравнивании).
2. Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина
Для выполнения задания был выбран полипротеин из коронавируса летучей мыши (Bat coronavirus HKU5).
ID: R1A_BCHK5
AC: P0C6T5; A3EXC9
OS: Bat coronavirus HKU5 (BtCoV) (BtCoV/HKU5/2004)
Среди белков был выбран фермент кэпирования РНК (RNA-capping enzyme subunit nsp9). Его координаты 4219-4328. Cсылка на на вырезанную последовательность в fasta-формате. Далее с этим белком были проделаны все те же действия, что и в пункте 1.Cсылка на текстовую выдачу. Cсылка на отредактированный проект в JalView.
3. Исследование зависимости E-value от объёма банка
По результатам поиска гомологичных белков без ограничения по таксону было выявлено 100 находок, тогда как при ограничении поиска кладой вирусов — лишь 61 находка. Долю вирусных белков можно оценить следующим образом: исходя из формулы расчёта E-value, нетрудно заметить, что в обоих случаях единственным изменяющимся параметром является размер базы данных (N), а значит, мы можем получить прямую зависимость N1/N2 = E1/E2. Выбрав произвольную находку, а именно белок с АС YP_009944347, для которого E-value при поиске без ограничения на таксон составило 610^-76, а при поиске исключительно среди вирусов — 110^-40, нетрудно вычислить, что N1/N2 = (610^-76) / (110^-40) = 6*10^-36. Таким образом, база данных вирусов составляет крайне малую долю от всей базы данных белков.
4. Сравнение интерфейсов BLAST
Сравнительный анализ веб-интерфейсов BLAST на платформах NCBI, EBI и UniProt демонстрирует существенные различия в их функциональности, выборе баз данных и способах представления результатов. Выбор конкретного ресурса зависит от стоящих перед исследователем задач: так, UniProt оптимален для работы с аннотированными последовательностями в рамках собственной экосистемы (UniProtKB, UniRef, UniParc) и удобен в тех случаях, когда не требуется сложная настройка параметров поиска. В противовес ему, EBI предлагает наиболее широкий спектр баз данных, включая узкоспециализированные (например, EnsemblCOVID19 или AlphaFold PDB), что делает его незаменимым при поиске гомологов в редких ресурсах. EBI также лидирует по гибкости настроек выравнивания (Advanced parameters), позволяя пользователю самостоятельно выбирать формат выдачи и варьировать длину слова, в то время как инструменты NCBI позволяют более тонко настраивать фильтры, а UniProt ограничивается лишь базовыми опциями. Значительные различия наблюдаются и в программном инструментарии: если на сайтах EBI и UniProt возможности поиска ограничены прямым сравнением белков или нуклеотидов, то на NCBI доступны программы для трансляционного поиска (blastn, tblastx, tblastn), что позволяет учитывать влияние посттрансляционных модификаций и проводить более глубокий анализ. Наконец, формат выдачи результатов также отражает специализацию ресурсов: NCBI предоставляет наиболее детализированную статистику с разделением на Max Score и Total Score и широкими возможностями сортировки данных, тогда как EBI позволяет интегрировать результаты с алгоритмами множественного выравнивания, а UniProt придерживается максимально лаконичного формата, отображая лишь ключевые показатели (Score, E-value, длину и Identity). Таким образом, для узких биоинформатических задач по трансляционному поиску предпочтителен NCBI, для работы со специфическими базами данных и сложными параметрами выравнивания лучше подходит EBI, а для быстрой проверки известных белковых семейств наиболее удобен интерфейс UniProt.