Практикум 10

Поиск гомологов белка по Swiss-Prot

В практикуме 7 я выбрал белок CTP synthase (AC: A0A8D6PRH3) из археи Methanocaldococcus lauensis. Для поиска гомологов этого белка среди других архей были использованы следующие параметры для BLAST:

  • Database – UniProtKB/Swiss-Prot(swissprot)
  • Organism – Archaea (taxid:2157)
  • Algorithm – blastp (protein-protein BLAST)
  • Max target sequences – 50
  • Expect threshold – 0.001
  • Word size – 3
  • Max matches in a query range – 0
  • Matrix – BLOSUM62
  • Gap Costs – Existence: 11 Extension: 1
  • Compositional adjustments – Conditional compositional score matrix adjustment

Параметры Exclude, Filter, Mask не выбирались, Short queries – включен. Всего нашлось 38 результатов (ссылка на текстовый файл). Мне захотелось проверить консервативность последовательности этого белка у разных родов экстремофильных архей, для этого из этих 38 находок были отобраны следующие 7:

  • Methanococcus maripaludis (S2)
  • Thermococcus onnurineus (NA1)
  • Methanosphaera stadtmanae (DSM 3091)
  • Pyrococcus furiosus (DSM 3638)
  • Methanosarcina acetivorans (C2A)
  • Methanocorpusculum labreanum (Z)
  • Thermoplasma acidophilum (DSM 1728)

Анализ проведенного множественного выравнивания с помощью Jalview (ссылка на проект) позволяет сделать выводы о гомологичности всех этих 7 белков, поскольку наблюдается много высоконсервативных участков в пределах двух главных доменов группы этих белков (Family & Domains): в домене CTP synthase N-terminal (7-269) это участки 11-24, 43-82, 111-127, 151-170, 197-210, в домене Glutamine amidotransferase (304-534) – 367-378, 447-456, 476-488, 521-534. Гэпы преимущественно сосредоточены на N- и C-концах, есть также два инделя внутри доменов (однако они скорее всего связаны с локальной дупликацией у одного конкретного вида).

Поиск гомологов зрелого вирусного белка по Swiss-Prot

Для проведения данного анализа был выбран следующий полипротеин: POLN_MIDDV (ID), P03318 (AC), Middelburg virus. Из него был отобран белок RNA-directed RNA polymerase nsP4 с координатами 386..995 (ссылка на fasta-файл). Для поиска гомологов были заданы те же самые значения параметров в BLAST, что и в первом задании, кроме параметра Max target sequences (изменен с 50 на 100, так как находок оказалось больше 50) и Organism (ничего не указано, так как в задании требуется поиск по всем организмам). Была найдена 61 находка (ссылка на текстовый файл). Для множественного выравнивания были отобраны следующие патогенные для человека и животных вирусы из разных географических территорий:

  • Ockelbo virus
  • Venezuelan equine encephalitis virus (strain Trinidad donkey)
  • O'nyong-nyong virus (strain Gulu)
  • Salmon pancreas disease virus (SPDV)
  • Getah virus (GETV)
  • Chikungunya virus (strain Senegal 37997)
  • Mayaro virus (strain Brazil)

Анализ проведенного выравнивания (ссылка на проект) позволяет сделать вывод о гомологичности всех 7 белков, можно наблюдать очень протяженные консервативные участки на протяжении всей длины последовательностей: 1-19, 59-74, 133-175, 183-234, 281-360 (очень протяженный консервативный участок), 370-389, 418-443, 521-539, а также незначительное число инделей.

Исследование зависимости E-value от объёма банка

Был проведен аналогичный поиск гомологов (смотри второе задание) с помощью BLAST, однако теперь был задан параметр Organism (задано значение Viruses (taxid:10239)), число находок приэтом изменилось (их стало 83). Организм Sunn-hemp Mosaic Virus (SHMV) (P89202.2) был найден в обоих случаях, при поиске во втором задании его E-value составил E0 = 4 · 10-5, а в этот раз E = 1 · 10-6. Учитывая, что запрос в обоих случаях был один и тот же, а также параметры вычисления веса, то доля n/n0 (отношения размеров баз данных, в числителе размер базы данных Вирусов в Swiss-Prot, в знаменателе размер всей базы данных Swiss-Prot) равна доле E/E0 (по теореме С. Карлина), откуда получаем приближенную оценку для доли записей по Вирусам в Swiss-Prot, она составляет примерно 2.5%.