В моей ванной два жирафа,
А на кухне – утконос.
Медоед ползёт со шкафа,
Лось включает пылесос. Кобыла и трупоглазые жабы, "Князья Бируши"
Нуклеотидный BLAST
Определения функции и таксономии нуклеотидной последовательности
Речь идёт о последовательности, полученной в шестом практикуме.
Поскольку вообще неизвестно, что там за последовательность и кодирует ли она что-то, использовался blastn. Поиск производился с помощью алгоритма megablast(чтобы сразу искать близких гомологов) на настройках по умолчанию по базе данных Nucleotide collection. Выдачу можно посмотреть по ссылке.
Первые 10 находок это ген 18S рибосомальной РНК разных видов из рода Loxosomella, тип Внутрипорошицевые. У первых трёх находок процент идентичности около 98%, поэтому с уверенностью можно сделать вывод, что исследуемая последовательность кодирует 18S рибосомальную РНК в организме, относящемуся к роду Loxosomella.
Исходная последовательность наиболее близка к последовательностям из следующих видов: L. murmanica, L. varians, L. malakhovi, но мне кажется, что организм, из которого была взята эта последовательность, не относился ни к одному из этих видов.
Я сделал два множественных выравнивания: первое с исходной последовательностью и последовательностями из трёх вышеперечисленных видов, а второе с тремя разными последовательностями этого же гена из Loxosomella aeropsis (их предалагет эта же выдача BLAST). Второе выравнивание нужно было чтобы примерно оценить то, как сильно последовательность этого гена может отличаться в пределах одного вида рода Loxosomella. Оба выравнивания можно посмотреть, скачав проект JalView по ссылке. Как можно видеть, во втором выравнивании при вдвое большей длине последовательностей(относительно исследуемой) различий меньше, чем в первом выравнивании. Отсюда можно сделать вывод, что исходный организм не относится ни к одному из видов, последовательности из которых предлагает BLAST.
Поиск генов белков в неаннотированной нуклеотидной последовательности
Для поиска генов был выбран один контигов кашалота Physeter catodon(см. предыдущий практикум). Был выбран контиг 17444 длиною 32905 нуклеотидов (многовато, но в целом контиг нормальный). Поскольку нужно было сразу искать белки, использовался алгоритм blastx, который ищет белки по транслированной нуклеотидной последовательности. Поиск производился по Non-redundant protein sequences, чтобы найти как можно больше последовательностей. Настройки были установлены по умолчанию, кроме: 1. Поиск только по белкам млекопитающих, исключая кашалота; 2. word-size 2, чтобы лучше искал.
Выдачу BLAST можно увидеть по ссылке. Все находки — это афадин и альфа-актин связывающий белок. Для каждой из находок BLAST приводит по четыре локальных выравнивания, которые в сумме с достаточно большим процентом идентичности (60% — 90%) полностью покрывают находку. Таким образом, данный контиг содержит ген (как минимум, кодирующую часть он содержит целиком) афадин- и альфа-актин связывающего белка.
Интепретация карты локального сходства гомологичных хромосом бактерий
Были выбраны бактерии относящиеся к роду Rickettsia: R. prowazekii (AC: CP014865.1) и R. rickettsii (AC: CP018914.1). На NCBI Genome для этих бактерий существуют сборки на уровне полного генома (т.е. хромосома и плазмиды), но использовались только хромосомы. Поскольку нас интересует нуклеотидная последовательность целиком, а не кодирующие белок участки, использовался blastn. Настройки по умолчанию, кроме Expect threshold, которому было установлено значение 5e-16, чтобы исключить лишние шумы. Карта локального сходства из страницы с выдачей BLAST представлена на Рисунке 1.
Как видно из карты локального сходства обе хромосомы очень похожи друг на друга по всей длине за исключением одного участка длиной примерно 100 тысяч нуклеотидов. Судя по всему в процессе эволюции одного из этих видов в этом участке сначала произошла инверсия (на рисунке выделено розовым), которая развернула этот участок, а затем внутри этого участка произошла инверсия поменьше(на рисунке выделено синим), вернув изначальную ориентацию. Чуть правее этого участка у R. prowazekii наблюдается дупликация длиною примерно 20 тысяч нуклеотидов (на рисунке выделено красным). Это дупликация, потому что у R. prowazekii таких участков два. Копии удвоенного участка почему-то разнесены в пространстве. Возможно, изначально дуплицировался участок побольше, но его часть впоследствии делетировалась.