В практикуме 7 был выбран белок Nitrate reductase (AC: A0A1W6BWS0) из бактерии Campylobacter cuniculorum. В окошко "Enter query sequence" был помещен файл с последовательнотью, так как код доступа находится в TrEMBL, а также следующие параметры в BLAST:
Для проведения данного анализа был выбран следующий полипротеин: POLN_MIDDV (ID), P03318 (AC), Middelburg virus. Из него был отобран белок RNA-directed RNA polymerase nsP4 с координатами 386..995 (ссылка на fasta-файл).
Параметры в BLAST:
Был найден 61 результат (ссылка на файл) Для множественного выравнивания были отобраны следующие патогенные для человека и животных вирусы:
Можно утверждать, что все 7 белков гомологичны (ссылка на проект). Наблюдаются протяженные консервативные участки по всей длине последовательностей: 1-19, 59-74, 132-154,158-174, 182-234, 280-359, 369-399, 417-453, 462-478, 523-538, а также незначительное число инделей.
Был проведен аналогичный поиск гомологов (ссылка на файл) с помощью BLAST, однако теперь был задан параметр Organism (задано значение Viruses (taxid:10239)), число находок приэтом изменилось (их стало 83). Организм Sunn-hemp Mosaic Virus (SHMV) (P89202.2) был найден в обоих случаях, при поиске во втором задании его E-value составил E0 = 4 · 10-5, а в этот раз E = 1 · 10-6. Учитывая, что запрос в обоих случаях был один и тот же, а также параметры вычисления веса, то доля n/n0 (отношения размеров баз данных, в числителе размер базы данных Вирусов в Swiss-Prot, в знаменателе размер всей базы данных Swiss-Prot) равна доле E/E0 (по теореме С. Карлина), откуда получаем приближенную оценку для доли записей по Вирусам в Swiss-Prot, она составляет примерно 2.5%.
В этом разделе я решила провести сравнение интерфейса BLAST на сайтах NCBI и UniProt. Во-первых, стоит отметить различия в выборе баз данных. Например, на NCBI есть возможность поиска в Refseq. В то же время, UniProt предоставляет более удобные условия для некоторых задач, позволяя отдельно рассматривать кластеры записей по схожести последовательностей (UniRef100, UniRef90, UniRef80). Также на UniProt можно отдельно выбрать UniProtKB с предсказанием 3D структур (Alphafold). Во-вторых, сайт UniProt распознает AC из TrEMBL, в отличие от NCBI. При вводе AC на UniProt автоматически отображается соответствующая последовательность с кратким описанием, что могло бы сэкономить время на практикуме, так как на NCBI мне приходилось загружать файл с последовательностью после его скачивания. Также следует упомянуть, что NCBI предлагает больше возможностей для настройки параметров выравнивания: там доступны матрицы весов аминокислот PAM250 и BLOSUM 90, которых нет на UniProt. Более того, на NCBI можно настроить штрафы за гэпы. Еще одно отличие заключается в истории запросов BLAST. На NCBI запросы хранятся в течение 36 часов, а на UniProt - 7 дней. В остальном параметры выбора на обоих сайтах примерно одинаковы. На мой взгляд, UniProt более удобен для работы, визуализация информации там лучше, но это уже вопрос личных предпочтений. Интерфейсы BLAST на обоих платформах схожи, и выбор сайта стоит основывать на конкретной задаче и предпочтениях пользователя.