В практикуме №6 мы составляли контиг, для которого в этом задании требуется найти гомологичные последовательности с помощью BLAST. В данном случае лучшим решением было бы использование алгоритма blastn, так как в отличие от megablast данный алгоритм ищет сколько-нибудь похожие последовательности среди представленных в базе, что предпочтительнее в тех случаях, когда мы не знаем, есть ли в нашей базе точно такая же последовательность. Поиск с помощью BLAST производился по базе Nucleotide colection (nr/nt), так как неизвестно, аннотирована ли последовательность или нет. Для expect threshold и word size были установлены значения 0.001 и 7 соответственно для более чувствительного поиска. Для любых других неупомянутых параметров оставлены значения по умолчанию.
Результаты: результаты работы программы можно посмотреть по ссылке.
Функция последовательности: исследуемая последовательность, вероятно, является участком гена субъединицы I цитохром оксидазы С, так как в выдаче программы blast e-value для записей с соответсвующим участком гена достаточно низок, например, у первых 10 последовательностей, у которых процент идентичности с искомой последовательностью равен около 99%, e-value равен 0.0 (машинный ноль).
Tаксономия: исследуемая последовательность наиболее вероятно принадлежит двустворчатому моллюску (Bivalvia) из надсемейства Tellinoidea (все 100 лучших находок), семейства Tellinidae (93 находки). Исходя из того, что наибольшие проценты идентичности принадлежат последовательностям из Limecola balthica, можно сделать вывод, что именно этому организму принадлежит исследуемая последовательность.
Результаты: результаты работы программы можно посмотреть по ссылке.
Можно предполагать, что в представленном контиге действительно содержатся гены белков, о чем говорит тот факт, что у многих находок достаточно низкий e-value. Одной из находок является ген субъединицы RPB3 ДНК-зависимой РНК-полимеразы 2, которая участвует в транскрипции, синтезирует предшественников мРНК и большинство мяРНК и микроРНК, вероятно, белок, закодированный в соответсвующем участке исследумого контига, выполняет именно эти функции. Соответсвующие находки были найдены в различных организмах: Schizosaccharomyces pombe 972h- (наибольший процент идентичности и наименьший e-value среди всех, что не удевительно, так как данный вид более родственен Saccharomyces cerevisiae), Mus musculus, Bos taurus, Homo sapiens, Dictyostelium discoideum, что говорит о том, что ген распространен, вероятно, в связи с важной функцией белка, который он кодирует.
Все находки для данного гена выравниваются на запрос по разному, нельзя выделить какие-либо общие паттерны, что, возможно, связано с тем, что соответсвующие организмы имеют менее близкое родство с Saccharomyces cerevisiae. Выравнивание находок для рассматриваемого гена доступно по ссылке.
Для срвнения были выбраны кольцевые хромосомы Rickettsia conorii и Rickettsia typhi. Карта локального сходства была получена с помощью программы megablast. На ней видно, что на большей свой части последовательности сходы, однако имеются и заметные перестройки генома: на участке 20К-160К произошла инверсия, на участке 620К-720К, по всей видимости, произошла сначала транслокация, а затем инверсия выделенного красным участка.