Семестр 2. Практикум 10. BLAST

1. Гомологи Rubredoxin-1 в Swiss-Prot

1.1. Параметры поиска

Поиск проводился на сайте NCBI BLAST (Protein BLAST) по базе данных Swiss-Prot. В качестве запроса использован код доступа P04170 (Rubredoxin-1, Desulfovibrio desulfuricans ATCC 27774, длина 45 а.к.).

Параметры алгоритма:

1.2. Результаты поиска

Найдено 76 значимых находок. Для дальнейшей работы отобраны 7 находок (помимо самого запроса) — все с покрытием 93–100% и E-value от 3e-14 до 3e-12, относящиеся к разным организмам. Результаты приведены в Таблице 1.

Таблица 1. Находки BLAST для Rubredoxin-1 (P04170) в Swiss-Prot

Accession Название Организм E-value % Identity
Q9AL94RubredoxinClostridium acetobutylicum3e-1457.69%
P00269RubredoxinNitratidesulfovibrio vulgaris Hildenborough1e-1357.69%
P14071RubredoxinButyribacterium methylotrophicum1e-1358.82%
P15412RubredoxinNitratidesulfovibrio vulgaris Miyazaki F2e-1353.85%
P00270RubredoxinMegalodesulfovibrio gigas5e-1359.18%
P09947RubredoxinChlorobaculum thiosulfatiphilum9e-1356.86%
P56263RubredoxinHeliobacterium mobile3e-1254.90%

BLAST: blast.txt

1.3. Множественное выравнивание и Jalview

Последовательности запроса и 7 находок скачаны в формате FASTA (seqdump.fasta). Множественное выравнивание построено в Jalview (WEBservices-Alignment-Muscle), Colour-Percentage Identity:

Множественное выравнивание Rubredoxin в Jalview

Рисунок 1. Множественное выравнивание 8 последовательностей Rubredoxin в Jalview.

Все 8 последовательностей хорошо выровнялись по всей длине. Большинство колонок тёмно-синие, что свидетельствует о высокой консервативности белка. Все находки являются гомологами.

Проект Jalview: rd1_aligned.jvp

2. Гомологи зрелого вирусного белка p35 из полипротеина

2.1. Выбор полипротеина и зрелого белка

В Swiss-Prot выбран полипротеин pp62 вируса африканской чумы свиней:

В поле FT записи Swiss-Prot найдены следующие зрелые белки (ключ CHAIN):

Для работы выбран зрелый белок p35 (координаты 159–463, длина 305 а.к.). Последовательность вырезана на kodomo для подачи на вход BLAST:

seqret 'sw:pp62_asfb7[159:463]' p35.fasta

Файл с последовательностью: p35.fasta

2.2. Параметры поиска

Поиск проводился на сайте NCBI BLAST (Protein BLAST) по базе данных Swiss-Prot. В качестве запроса подан файл p35.fasta. Фильтр по организмам не применялся. Параметры алгоритма те же, что в задании 1.

2.3. Результаты поиска

Найдено всего 4 находки (меньше рекомендуемых 5–7). Все они являются полипротеином pp62 из разных штаммов ASFV; гомологов p35 в других организмах в Swiss-Prot не обнаружено. Поиск был повторён с Word size: 3, однако список находок не изменился. Таким образом, белок p35 не имеет детектируемых гомологов среди аннотированных белков других организмов в Swiss-Prot, и дальнейшая работа ведётся с имеющимися 4 находками. Все E-value равны 0.0 (машинный ноль), что делает эти находки непригодными для упражнения 3.

Таблица 2. Находки BLAST для зрелого белка p35 из полипротеина pp62 ASFV

Accession Штамм ASFV E-value % Identity Word size
P0CA08warthog/Namibia/Wart80/19800.0100%5 и 3
P0CA07tick/South Africa/Pretoriuskop Pr4/19960.0100%5 и 3
P0CA06Malawi LIL 20/10.098.69%5 и 3
P0CA05pig/Kenya/KEN-50/19500.098.36%5 и 3

BLAST Word size 5: blast2-WS5.txt  |  BLAST Word size: 3: blast3-WS3.txt

2.4. Множественное выравнивание и Jalview

Находки скачаны с BLAST в формате FASTA как полные полипротеины (blast_seqdump+p35.fasta) и объединены с запросом p35 и выравнены в Jalview (WEBservices-Alignment-Muscle with Defaults).

Множественное выравнивание p35 в Jalview (Word size 5)

Рисунок 2. Множественное выравнивание p35.

Все пять последовательностей выровнялись практически идеально — большинство колонок тёмно-синие (идентичность близка к 100%). Несколько светлых позиций соответствуют единичным заменам между штаммами ASFV. Все находки являются гомологами запроса — это варианты одного и того же белка p35 из разных штаммов вируса африканской чумы свиней. Негомологичных белков среди находок нет, выравнивание не редактировалось.

Проект Jalview: p35_aligned.jvp

3. Зависимость E-value от объёма банка

Поиск p35 с фильтром Viruses показал те же 4 находки с теми же E-value (0.0) — оценить долю вирусных белков невозможно, так как все E-value равны машинному нулю. Для корректного сравнения был взят другой зрелый белок из того же полипротеина — p8.

3.1. Вырезание p8 и поиск без фильтра

Поиск по Swiss-Prot без фильтра дал 4 находки — те же штаммы ASFV, но с ненулевыми E-value , см. Таблицу 3.

Таблица 3. Сравнение E-value белка p8 при поиске без фильтра и с фильтром по организмам (Viruses)

Accession Штамм ASFV E-value (без фильтра) E-value (Viruses) % Identity
P0CA08warthog/Namibia/Wart80/19809e-394e-40100%
P0CA07tick/South Africa/Pretoriuskop Pr4/19962e-386e-4098.51%
P0CA06Malawi LIL 20/19e-384e-3997.01%
P0CA05pig/Kenya/KEN-50/19503e-361e-3796.92%

BLAST p8 без фильтра: blast_p8.txt  |  BLAST p8 с фильтром Viruses: blast_p8_viruses.txt

3.2. Оценка доли вирусных белков в Swiss-Prot

При фильтрации по Viruses список находок не изменился, но E-value у всех находок улучшился (уменьшился). Это закономерно: E-value пропорционален размеру просматриваемого банка, а фильтр по Viruses сократил банк до вирусных белков[1],[2].

Возьмём находку P0CA08: E-value без фильтра — 9e-39, с фильтром Viruses — 4e-40. Поскольку E = k × N, где N — число белков в банке:

доля вирусных белков = E(Viruses) / E(все) = 4e-40 / 9e-39 ≈ 0.044 ≈ 4.4%

Это согласуется с реальными данными UniProt, по которым доля вирусных записей в Swiss-Prot составляет около 3–5%.[1]

4. Список литературы

  1. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. 1990;215(3):403–410. doi:10.1016/S0022-2836(05)80360-2
  2. Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 1997;25(17):3389–3402. doi:10.1093/nar/25.17.3389
← К списку работ семестра