BLAST

Поиск гомологов белка по Swiss-Prot

В практикуме 7 был выбран белок Nitrate reductase (AC: A0A1W6BWS0) из бактерии Campylobacter cuniculorum. В окошко "Enter query sequence" был помещен файл с последовательнотью, так как код доступа находится в TrEMBL, а также следующие параметры в BLAST:

  • Database – UniProtKB/Swiss-Prot(swissprot)
  • Organism – 'Epsilonproteobacteria' (taxid:29547)
  • Algorithm – blastp (protein-protein BLAST)
  • Max target sequences – 50
  • Expect threshold – 0.001
  • Word size – 3
  • Max matches in a query range – 0
  • Matrix – BLOSUM62
  • Gap Costs – Existence: 11 Extension: 1
  • Compositional adjustments – Conditional compositional score matrix adjustment
  • Параметры Exclude, Filter, Mask не выбирались. Всего нашлось 13 результатов (ссылка на запись). Нужно проверить консервативность последовательности этого белка у разных родов бактерий , для этого из этих 13 находок были отобраны следующие 7:
  • Campylobacter lari RM2100
  • Campylobacter concisus 13826
  • Campylobacter curvus 525.92
  • Nautilia profundicola AmH
  • Helicobacter hepaticus ATCC 51449
  • Wolinella succinogenes DSM 1740
  • Nitratiruptor sp. SB155-2
  • Множественное выравние было выполнено с помощью программы muscle на kodomo, редактирование в программе Jalview.(ссылка на проект) Анализ проведенного множественного выравнивания позволяет сделать выводы о гомологичности всех этих 7 белков, поскольку наблюдается много высоконсервативных участков в пределах домена 4Fe-4S Mo/W bis-MGD-type (33-89): 51-53, 56-68, 79-86. Гэпы имеются на N конце и ближе к C концу. Есть также индель внутри домена (он скорее всего связан с локальной дупликацией у одного конкретного вида)

    Поиск гомологов зрелого вирусного белка по Swiss-Prot

    Для проведения данного анализа был выбран следующий полипротеин: POLN_MIDDV (ID), P03318 (AC), Middelburg virus. Из него был отобран белок RNA-directed RNA polymerase nsP4 с координатами 386..995 (ссылка на fasta-файл).

    Параметры в BLAST:

  • Database – UniProtKB/Swiss-Prot(swissprot)
  • Algorithm – blastp (protein-protein BLAST)
  • Max target sequences – 100
  • Expect threshold – 0.001
  • Word size – 3
  • Max matches in a query range – 0
  • Matrix – BLOSUM62
  • Gap Costs – Existence: 11 Extension: 1
  • Compositional adjustments – Conditional compositional score matrix adjustment
  • Был найден 61 результат (ссылка на файл) Для множественного выравнивания были отобраны следующие патогенные для человека и животных вирусы:

  • Ockelbo virus
  • O'nyong-nyong virus (strain Gulu)
  • Venezuelan equine encephalitis virus (strain Trinidad donkey)
  • Salmon pancreas disease virus (SPDV)
  • Getah virus (GETV)
  • Chikungunya virus (strain Senegal 37997)
  • Mayaro virus (strain Brazil)
  • Сначала в Jalview был загружен файл с 7 выбранными последовательностями, из них вырезала нужные участки, указанные в выдаче Blast. Затем добавила еще один сегмент и выровняла с помощью jalview muscle.

    Можно утверждать, что все 7 белков гомологичны (ссылка на проект). Наблюдаются протяженные консервативные участки по всей длине последовательностей: 1-19, 59-74, 132-154,158-174, 182-234, 280-359, 369-399, 417-453, 462-478, 523-538, а также незначительное число инделей.

    Исследование зависимости E-value от объёма банка

    Был проведен аналогичный поиск гомологов (ссылка на файл) с помощью BLAST, однако теперь был задан параметр Organism (задано значение Viruses (taxid:10239)), число находок приэтом изменилось (их стало 83). Организм Sunn-hemp Mosaic Virus (SHMV) (P89202.2) был найден в обоих случаях, при поиске во втором задании его E-value составил E0 = 4 · 10-5, а в этот раз E = 1 · 10-6. Учитывая, что запрос в обоих случаях был один и тот же, а также параметры вычисления веса, то доля n/n0 (отношения размеров баз данных, в числителе размер базы данных Вирусов в Swiss-Prot, в знаменателе размер всей базы данных Swiss-Prot) равна доле E/E0 (по теореме С. Карлина), откуда получаем приближенную оценку для доли записей по Вирусам в Swiss-Prot, она составляет примерно 2.5%.

    Сравнение интерфейсов

    В этом разделе я решила провести сравнение интерфейса BLAST на сайтах NCBI и UniProt. Во-первых, стоит отметить различия в выборе баз данных. Например, на NCBI есть возможность поиска в Refseq. В то же время, UniProt предоставляет более удобные условия для некоторых задач, позволяя отдельно рассматривать кластеры записей по схожести последовательностей (UniRef100, UniRef90, UniRef80). Также на UniProt можно отдельно выбрать UniProtKB с предсказанием 3D структур (Alphafold). Во-вторых, сайт UniProt распознает AC из TrEMBL, в отличие от NCBI. При вводе AC на UniProt автоматически отображается соответствующая последовательность с кратким описанием, что могло бы сэкономить время на практикуме, так как на NCBI мне приходилось загружать файл с последовательностью после его скачивания. Также следует упомянуть, что NCBI предлагает больше возможностей для настройки параметров выравнивания: там доступны матрицы весов аминокислот PAM250 и BLOSUM 90, которых нет на UniProt. Более того, на NCBI можно настроить штрафы за гэпы. Еще одно отличие заключается в истории запросов BLAST. На NCBI запросы хранятся в течение 36 часов, а на UniProt - 7 дней. В остальном параметры выбора на обоих сайтах примерно одинаковы. На мой взгляд, UniProt более удобен для работы, визуализация информации там лучше, но это уже вопрос личных предпочтений. Интерфейсы BLAST на обоих платформах схожи, и выбор сайта стоит основывать на конкретной задаче и предпочтениях пользователя.