1. Поиск гомологов белка ЦТФ-синтазы из организма Natronomonas pharaonis в базе данных белковых последовательностей Swiss-Prot с помощью BLAST
При запуске программы BLAST в поле Enter Query Sequence был вставлен AC (Accession Code) изучаемого белка бактерии
2. Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина
Для выполнения задания был выбран полипротеин из коронавируса летучей мыши (Bat coronavirus HKU5).
ID: R1A_BCHK5
AC: P0C6T5; A3EXC9
OS: Bat coronavirus HKU5 (BtCoV) (BtCoV/HKU5/2004)
Среди белков был выбран фермент кэпирования РНК (RNA-capping enzyme subunit nsp9). Его координаты 4219-4328. Cсылка на на вырезанную последовательность в fasta-формате. После аналогичных первому разделу практикума действий в BLAST было получено 40 последовательностей.Cсылка на текстовую выдачу. Cсылка на отредактированный проект в JalView.После удаления букв находок, находящихся по обе стороны от исходного зрелого белка, ясно видно, что оставшиеся фрагменты высоко гомологичны (за исключением некоторых стобцов с низкой идентичностью). Последовательности P0C6W4.1 и P0C6T5.1, K9N638.1 и K9N7C7.1, P0C6F7.1 и P0C6W1.1, P0C6W3.1 и P0C6T4.1 попарно абсолютно идентичны.
3. Исследование зависимости E-value от объёма банка
Был взят зрелый белок “Pipistrellus bat coronavirus HKU5”. По результатам поиска гомологичных белков без ограничения по таксону было выявлено 58 находок. Последовательность белка была изучена на наличие гомологов в программе BLAST сначала без использования фильтра на таксономию, а затем с фильтром на таксон: Viruses (taxid:10239). В первом запросе значение E-value: 2e-73 , во втором: 4e-72. Исходя из формулы для E-value, для нахождения доли вирусных белков в Swiss-Prot мы должны поделить значение E-value первого запроса на Е-value второго запроса. Таким образом мы получим, что доля вирусных белков составляет: 5% .
4. Сравнение интерфейсов BLAST
Сравнительный анализ веб-интерфейсов BLAST на платформах NCBI, EBI и UniProt демонстрирует существенные различия в их функциональности, выборе баз данных и способах представления результатов. Выбор конкретного ресурса зависит от стоящих перед исследователем задач: так, UniProt оптимален для работы с аннотированными последовательностями в рамках собственной экосистемы (UniProtKB, UniRef, UniParc) и удобен в тех случаях, когда не требуется сложная настройка параметров поиска.
В противовес ему, EBI предлагает наиболее широкий спектр баз данных, включая узкоспециализированные (например, EnsemblCOVID19 или AlphaFold PDB), что делает его незаменимым при поиске гомологов в редких ресурсах. EBI также лидирует по гибкости настроек выравнивания (Advanced parameters), позволяя пользователю самостоятельно выбирать формат выдачи и варьировать длину слова, в то время как инструменты NCBI позволяют более тонко настраивать фильтры, а UniProt ограничивается лишь базовыми опциями. Значительные различия наблюдаются и в программном инструментарии: если на сайтах EBI и UniProt возможности поиска ограничены прямым сравнением белков или нуклеотидов, то на NCBI доступны программы для трансляционного поиска (blastn, tblastx, tblastn), что позволяет учитывать влияние посттрансляционных модификаций и проводить более глубокий анализ. Наконец, формат выдачи результатов также отражает специализацию ресурсов: NCBI предоставляет наиболее детализированную статистику с разделением на Max Score и Total Score и широкими возможностями сортировки данных, тогда как EBI позволяет интегрировать результаты с алгоритмами множественного выравнивания, а UniProt придерживается максимально лаконичного формата, отображая лишь ключевые показатели (Score, E-value, длину и Identity).
Таким образом, для узких биоинформатических задач по трансляционному поиску предпочтителен NCBI, для работы со специфическими базами данных и сложными параметрами выравнивания лучше подходит EBI, а для быстрой проверки известных белковых семейств наиболее удобен интерфейс UniProt.