Практикум 10

1. Поиск гомологов РНК-метилтрансферазы двойной специфичности RlmN

Поиск в swiss-prot белка A0A4S8NXY8_9HYPH:

Databases: Stabdart databases(nr etc.)
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp(protein-protein BLAST)
Max target sequences = 5000
Expect threshold: 0.05
Word size: 5
Matrix: BLOSUM62
Gap Costs: Existence=11 Extension=1

Выдача BLAST

Из выдачи BLAST я выбрал 6 белков для дальнейшей работы:

  1. Dual-specificity RNA methyltransferase RlmN [Campylobacter curvus (strain 525.92)] (A7GVW3)
  2. Dual-specificity RNA methyltransferase RlmN [Marinobacter aquaeolei] (A1TZP7)
  3. Dual-specificity RNA methyltransferase RlmN [Ralstonia pickettii (strain 12J)] (B2U9U6)
  4. Dual-specificity RNA methyltransferase RlmN [Shewanella sp. (strain MR-7)] (Q0HX60)
  5. Dual-specificity RNA methyltransferase RlmN [Shewanella frigidimarina (strain NCIMB 400)] (Q085U9)
  6. Dual-specificity RNA methyltransferase RlmN [Janthinobacterium sp. (strain Marseille) (Minibacterium massiliensis)] (A6SZX3)

Далее я открыл JalView, по запросу (A0A4S8NXY8;A7GVW3;A1TZP7;B2U9U6;Q0HX60;Q085U9;A6SZX3) во вкладке Fetch Sequences получил последовательности 7 интересующих меня белков, и построил множественное выравнивание при помощи программы Muscle with Defaults

Столбцы с 31 по 420 вполне неплохо совпадают, если не считать пару пробелов 136-149 и 192-226, где консервативных участков немного. Таким образом, можно сделать вывод, что все эти белки гомологичны.

2. Находки в Swissprot гомологов зрелого вирусного белка, вырезанного из полипротеина

Выбор полипротеина

При помощи команд
descseq -sequence 'sw:gp_puumk[24:658]' -name 'Glycoprotein N' -description 'id="PRO_0000036826"' -outseq segment.fasta
descseq -sequence 'sw:gp_puumk[659:1148]' -name 'Glycoprotein C' -description 'id="PRO_0000036827"' -outseq segment.fasta
Были вырезаны Glycoprotein N и Glycoprotein C, после чего при помощи BLAST был произведён поиск их гомологов.

В выдаче BLAST для Glycoprotein N оказался всего 1 белок с ненулевым E-value (при длине слов 2 и 5 результаты оказались одинаковыми)
В выдаче BLAST для Glycoprotein C оказались уже 3 белка с ненулевым E-value

Из выдачи BLAST я выбрал 5 белков из выдачи BLAST для Glycoprotein C для дальнейшей работы:

  1. P27312
  2. Q9E006
  3. Q89905
  4. P08668
  5. Q09120

В JalView, по запросу (P41265;P27312;Q9E006;Q89905;P08668;Q09120) во вкладке Fetch Sequences получил последовательности 6 интересующих меня белков, и построил множественное выравнивание при помощи программы Muscle with Defaults

Все последовательности являются гомологичными. И несмотря на то, что последняя последовательность гораздо короче остальных, в ней достаточно много совпадающих букв (особенно на участке 450-483), чтобы можно было говорить о гомологии.

3. Исследование объёма банка с помощью E-valueа

По изменению значения E-value возможно установить, какую долю от общего числа белков составляют вирусные.
Для этого я сделал 2 запроса к BLAST:

  1. Glycoprotein C with no filters
  2. Glycoprotein C with taxonomy filter: Viruses
Далее я взял E-value одной и той же находки (Q09120), после чего по формуле E-valueviruses / E-valueno filters получил 5e-172 / 1e-170 = 0.05
Таким образом, доля вирусных белков приблизительно составляет 5%