Предсказание геномов прокариот
Вирус бешенства
Для аннотации был взят одноцепочечный РНК-вирус бешенства: Viruses; ssRNA viruses; ssRNA negative-strand viruses; Mononegavirales; Rhabdoviridae; Lyssavirus; Rabies virus . Идентификатор: M13215.1 (NC_001542.1 в RefSeq).
rabies.gb
rabies.fasta
Геном вируса был загружен в формате fasta на сервер RAST (Rapid Annotation using Subsystem Technology), через 2 часа выдавший результат своей работы: 11292.4.gbk
Из файла, полученного от RAST, и исходного файла с генами вируса в формате GenBank был сделан гибридный файл: rabies_cut.gbk, чтобы визуализировать разницу в находках с помощью GenomeView:

Во-первых, RAST не указал явным образом, что организм - РНК-вирус, и содержит не гены как таковые, а мРНК. В аннотации Nucleotide'а явно указаны координаты мРНК на минус-РНК-цепи и координаты, а ткаже последовательность аминокислот кодируемого белка.
Во-вторых, даже в генах вируса бешенства, а геном у него маленький - 11,932Кб, нашлось 5 разногласий в координатах и аннотации (см. рисунок, гены, помеченные "АА..." - аннотированы Nucleotide'ом и идут выше,CDS - RAST'ом и идут ниже. К сожалению, сделать их другого цвета получилось только в mspaint при обработке скриншота). Сравнительная таблица:
имя в записи | взят из | начало | конец | длина гена | аннотация (гена, производимого на мРНК вируса) |
CDS[41..1423] | RAST | 41 | 1423 | 1382 | hypothetical protein |
AAA47215.1 | NCBI Nucleotide | 71 | 1423 | 1352 | nucleoprotein N |
CDS[1514..2407] | RAST | 1514 | 2407 | 893 | hypothetical protein |
AAA47216.1 | NCBI Nucleotide | 1514 | 2407 | 893 | phosphoprotein M1 |
CDS[2466..3104] | RAST | 2466 | 3104 | 638 | hypothetical protein |
AAA47217.1 | NCBI Nucleotide | 2496 | 3104 | 608 | M2 protein |
CDS[3276..4892] | RAST | 3276 | 4892 | 1616 | hypothetical protein |
AAA47218.1 | NCBI Nucleotide | 3318 | 4892 | 1574 | transmembrane glycoprotein G |
CDS[5117..5317] | RAST | 5117 | 5317 | 200 | hypothetical protein |
не имеет аналога в аннотации NCBI Nucleotide |
CDS[5565..11846] | RAST | 5565 | 11846 | 6281 | hypothetical protein |
AAA47219.1 | NCBI Nucleotide | 5418 | 11846 | 6428 | L protein |
Попробуем аннотировать несовпадающие гены по гомологам, найденным с помощью выравнивания в blastp.
1.CDS[41..1423]
Во входном белке с хорошим процентом идентичных позиций был распознан nucleoprotein N вируса бешенства

2.CDS[2466..3104]
С чуть меньшим процентом идентичных позиций, но не менее уверенно распознаётся M2 Protein вируса бешенства

3.CDS[5117..5317]
А вот для последовательности на обратной цепи, найденной RAST'ом, blastp как ни старался - не нашёл ничего сколько-нибудь схожего:

Следовательно, предсказание ошибочно.
|