Предсказание геномов прокариот

Вирус бешенства

Для аннотации был взят одноцепочечный РНК-вирус бешенства: Viruses; ssRNA viruses; ssRNA negative-strand viruses; Mononegavirales; Rhabdoviridae; Lyssavirus; Rabies virus. Идентификатор: M13215.1 (NC_001542.1 в RefSeq).
rabies.gb
rabies.fasta
Геном вируса был загружен в формате fasta на сервер RAST (Rapid Annotation using Subsystem Technology), через 2 часа выдавший результат своей работы: 11292.4.gbk
Из файла, полученного от RAST, и исходного файла с генами вируса в формате GenBank был сделан гибридный файл: rabies_cut.gbk, чтобы визуализировать разницу в находках с помощью GenomeView:

Во-первых, RAST не указал явным образом, что организм - РНК-вирус, и содержит не гены как таковые, а мРНК. В аннотации Nucleotide'а явно указаны координаты мРНК на минус-РНК-цепи и координаты, а ткаже последовательность аминокислот кодируемого белка.
Во-вторых, даже в генах вируса бешенства, а геном у него маленький - 11,932Кб, нашлось 5 разногласий в координатах и аннотации (см. рисунок, гены, помеченные "АА..." - аннотированы Nucleotide'ом и идут выше,CDS - RAST'ом и идут ниже. К сожалению, сделать их другого цвета получилось только в mspaint при обработке скриншота). Сравнительная таблица:

имя в записивзят изначалоконецдлина генааннотация (гена, производимого на мРНК вируса)
CDS[41..1423] RAST 41 1423 1382 hypothetical protein
AAA47215.1 NCBI Nucleotide 71 1423 1352 nucleoprotein N
CDS[1514..2407] RAST 1514 2407 893 hypothetical protein
AAA47216.1 NCBI Nucleotide 1514 2407 893 phosphoprotein M1
CDS[2466..3104] RAST 2466 3104 638 hypothetical protein
AAA47217.1 NCBI Nucleotide 2496 3104 608 M2 protein
CDS[3276..4892] RAST 3276 4892 1616 hypothetical protein
AAA47218.1 NCBI Nucleotide 3318 4892 1574 transmembrane glycoprotein G
CDS[5117..5317] RAST 5117 5317 200 hypothetical protein
не имеет аналога в аннотации NCBI Nucleotide
CDS[5565..11846] RAST 556511846 6281 hypothetical protein
AAA47219.1 NCBI Nucleotide 541811846 6428 L protein

Попробуем аннотировать несовпадающие гены по гомологам, найденным с помощью выравнивания в blastp.

1.CDS[41..1423]


Во входном белке с хорошим процентом идентичных позиций был распознан nucleoprotein N вируса бешенства

2.CDS[2466..3104]


С чуть меньшим процентом идентичных позиций, но не менее уверенно распознаётся M2 Protein вируса бешенства

3.CDS[5117..5317]


А вот для последовательности на обратной цепи, найденной RAST'ом, blastp как ни старался - не нашёл ничего сколько-нибудь схожего:

Следовательно, предсказание ошибочно.