Поиск проводился на сайте NCBI BLAST (Protein BLAST) по базе данных Swiss-Prot. В качестве запроса использован код доступа P04170 (Rubredoxin-1, Desulfovibrio desulfuricans ATCC 27774, длина 45 а.к.).
Параметры алгоритма:
Найдено 76 значимых находок. Для дальнейшей работы отобраны 7 находок (помимо самого запроса) — все с покрытием 93–100% и E-value от 3e-14 до 3e-12, относящиеся к разным организмам. Результаты приведены в Таблице 1.
Таблица 1. Находки BLAST для Rubredoxin-1 (P04170) в Swiss-Prot
| Accession | Название | Организм | E-value | % Identity |
|---|---|---|---|---|
Q9AL94 | Rubredoxin | Clostridium acetobutylicum | 3e-14 | 57.69% |
P00269 | Rubredoxin | Nitratidesulfovibrio vulgaris Hildenborough | 1e-13 | 57.69% |
P14071 | Rubredoxin | Butyribacterium methylotrophicum | 1e-13 | 58.82% |
P15412 | Rubredoxin | Nitratidesulfovibrio vulgaris Miyazaki F | 2e-13 | 53.85% |
P00270 | Rubredoxin | Megalodesulfovibrio gigas | 5e-13 | 59.18% |
P09947 | Rubredoxin | Chlorobaculum thiosulfatiphilum | 9e-13 | 56.86% |
P56263 | Rubredoxin | Heliobacterium mobile | 3e-12 | 54.90% |
BLAST: blast.txt
Последовательности запроса и 7 находок скачаны в формате FASTA (seqdump.fasta). Множественное выравнивание построено в Jalview (WEBservices-Alignment-Muscle), Colour-Percentage Identity:
Рисунок 1. Множественное выравнивание 8 последовательностей Rubredoxin в Jalview.
Все 8 последовательностей хорошо выровнялись по всей длине. Большинство колонок тёмно-синие, что свидетельствует о высокой консервативности белка. Все находки являются гомологами.
Проект Jalview: rd1_aligned.jvp
В Swiss-Prot выбран полипротеин pp62 вируса африканской чумы свиней:
PP62_ASFB7Q65179В поле FT записи Swiss-Prot найдены следующие зрелые белки (ключ CHAIN):
Для работы выбран зрелый белок p35 (координаты 159–463, длина 305 а.к.). Последовательность вырезана на kodomo для подачи на вход BLAST:
seqret 'sw:pp62_asfb7[159:463]' p35.fasta
Файл с последовательностью: p35.fasta
Поиск проводился на сайте NCBI BLAST (Protein BLAST) по базе данных Swiss-Prot. В качестве запроса подан файл p35.fasta. Фильтр по организмам не применялся. Параметры алгоритма те же, что в задании 1.
Найдено всего 4 находки (меньше рекомендуемых 5–7). Все они являются полипротеином pp62 из разных штаммов ASFV; гомологов p35 в других организмах в Swiss-Prot не обнаружено. Поиск был повторён с Word size: 3, однако список находок не изменился. Таким образом, белок p35 не имеет детектируемых гомологов среди аннотированных белков других организмов в Swiss-Prot, и дальнейшая работа ведётся с имеющимися 4 находками. Все E-value равны 0.0 (машинный ноль), что делает эти находки непригодными для упражнения 3.
Таблица 2. Находки BLAST для зрелого белка p35 из полипротеина pp62 ASFV
| Accession | Штамм ASFV | E-value | % Identity | Word size |
|---|---|---|---|---|
P0CA08 | warthog/Namibia/Wart80/1980 | 0.0 | 100% | 5 и 3 |
P0CA07 | tick/South Africa/Pretoriuskop Pr4/1996 | 0.0 | 100% | 5 и 3 |
P0CA06 | Malawi LIL 20/1 | 0.0 | 98.69% | 5 и 3 |
P0CA05 | pig/Kenya/KEN-50/1950 | 0.0 | 98.36% | 5 и 3 |
BLAST Word size 5: blast2-WS5.txt |
BLAST Word size: 3: blast3-WS3.txt
Находки скачаны с BLAST в формате FASTA как полные полипротеины (blast_seqdump+p35.fasta) и объединены с запросом p35 и выравнены в Jalview (WEBservices-Alignment-Muscle with Defaults).
Рисунок 2. Множественное выравнивание p35.
Все пять последовательностей выровнялись практически идеально — большинство колонок тёмно-синие (идентичность близка к 100%). Несколько светлых позиций соответствуют единичным заменам между штаммами ASFV. Все находки являются гомологами запроса — это варианты одного и того же белка p35 из разных штаммов вируса африканской чумы свиней. Негомологичных белков среди находок нет, выравнивание не редактировалось.
Проект Jalview: p35_aligned.jvp
Поиск p35 с фильтром Viruses показал те же 4 находки с теми же E-value (0.0) — оценить долю вирусных белков невозможно, так как все E-value равны машинному нулю. Для корректного сравнения был взят другой зрелый белок из того же полипротеина — p8.
Поиск по Swiss-Prot без фильтра дал 4 находки — те же штаммы ASFV, но с ненулевыми E-value , см. Таблицу 3.
Таблица 3. Сравнение E-value белка p8 при поиске без фильтра и с фильтром по организмам (Viruses)
| Accession | Штамм ASFV | E-value (без фильтра) | E-value (Viruses) | % Identity |
|---|---|---|---|---|
P0CA08 | warthog/Namibia/Wart80/1980 | 9e-39 | 4e-40 | 100% |
P0CA07 | tick/South Africa/Pretoriuskop Pr4/1996 | 2e-38 | 6e-40 | 98.51% |
P0CA06 | Malawi LIL 20/1 | 9e-38 | 4e-39 | 97.01% |
P0CA05 | pig/Kenya/KEN-50/1950 | 3e-36 | 1e-37 | 96.92% |
BLAST p8 без фильтра: blast_p8.txt | BLAST p8 с фильтром Viruses: blast_p8_viruses.txt
При фильтрации по Viruses список находок не изменился, но E-value у всех находок улучшился (уменьшился). Это закономерно: E-value пропорционален размеру просматриваемого банка, а фильтр по Viruses сократил банк до вирусных белков[1],[2].
Возьмём находку P0CA08: E-value без фильтра — 9e-39, с фильтром Viruses — 4e-40. Поскольку E = k × N, где N — число белков в банке:
доля вирусных белков = E(Viruses) / E(все) = 4e-40 / 9e-39 ≈ 0.044 ≈ 4.4%
Это согласуется с реальными данными UniProt, по которым доля вирусных записей в Swiss-Prot составляет около 3–5%.[1]