Реконструкция дерева по рРНК

Мнемоника организмаAC в EMBLПозиции в последовательности
начало..конец
LACLM AM406671 511423..512971
LACAC CP000033 59255..60826
ENTFA AE016830 248466..249987
LISMO CP002001 241024..242561
BACSU AL009126 635433..636987
STAA1 AP009324 531922..533476
CLOTE AE015927 complement(8715..10223)
FINM2 AP008971 197837..199361

Все последовательности рРНК, кроме последовательности LISMO, были найдены по описанию в поле FT в описании полного генома, который был найден по ссылке с белков IF2 соответствующих организмов. Полный геном LISMO, на который ссылался белок IF2_LISMO не содержал описаний рРНК. Я запустила blastn с последовательностью рРНК BACSU, указав нужный вид организма (Lysteria monocytogenes). Аналогичная последовательность была найдена в полном геноме LISMO в записи с AC CP002001. Были высокие показатели coverage, score, e-value. Поэтому я взяла этот фрагмент.

Для построения дерева я воспользовалась программой fneighbor, потому что это популярная и быстрая программа, которая строит достаточно правдоподобные деревья. Результат:

У этого дерева с правильным есть общие ветви: {BACSU, LISMO, STAA1} vs {...}, {CLOTE, FINM2} vs{...}. Это неплохой результат. Но качество реконструкции хуже, чем по белкам.

Ортологи и паралоги

Я воспользовалась программой BLAST на сайте NCBI. Чтобы найти ортологи CLPX_BACSU я искала по белкам других бактерий и выбирала белки с мнемоникой CLPX. Чтобы найти паралоги, я искала похожие последовательности в одном организме, используя в качестве запроса последовательность CLPX соответствующего организма. И построила дерево, используя fneighbor.

Ортологами, например, являются: CLPX_BACSU и CLPX_LISMO, CLPX_FINM2 и CLPX_LACLM, CLPX_CLOTE и CLPX_ENTFA. Паралогами являются: RUVB_LACAC и CLPX_LACAC, MECB_CLOTE и CLPX_CLOTE, HSIU_BACSU и CLPX_BACSU.