Нахождение в гене эукариота гена, кодирующего дельта-субъединицу АТФ-синтетазы
Найденная АТФ-синтетаза - NP_001093091.1
Рисунок 1. Окрестность гена с ID:100101165, кодирующего δ-субъединицу АТФ-синтазы (NP_001093091.1). Белок - NP_001093091.1. ID гена: 100101165, координаты - [9033455-9036162], его последовательность.
Разные варианты BLAST
Так как мой организм относится к первичноротым, что из выданных на выбор семейств вторичноротых, я выбрала семейство Собачьих(Canidae).
База данных для поиска - refseq_genomes.
Рисунок 2. Графический результат поиска blastn. Всего было найдено 102 схожих с последовательностью белок-кодирующей части гена дельта-субъединицы АТФ синтетазы последовательности длины в районе 100-200 нуклеотидов. Есть также схожие области, выровненные в одной и той же последовательности базы данных, соединеные серой линией. Первые 7 находок имеют достаточно низкий e-value (1e-04, 4e-04). Выбранный таксон - Собачьи(Canidae). База данных - refseq_genomes, 7 сборок в таксоне. Длина слова - 11, остальные параметры без изменений. Все находки расположены в области интронов гена, кодирующего δ-субъединицу АТФ-синтазы, и представляют собой в основном нуклеотидные повторы (1-2 символа), вероятно не особо значимых. Можно сделать вывод, что поиск blastn среди столь далеких организмов не дает биологически значимой информации.
Рисунок 3. Графический результат поиска tblastx (так как у меня изначально была нуклеотидная последовательность гена дельта-субъединицы АТФ-синтетазы). Всего было найдено 8 последовательностей, схожих с заданной частью гена. При данном методе выровненные последовательности длинне, чем при использовании blastn, но при этом более высокий E-value (самый низкий 0.001). Выбранный таксон - Собачьи(Canidae). База данных - refseq_genomes, 7 сборок в таксоне. Длина слова - 3, остальные параметры без изменений. Все находки tblastx распложены в окрестностях экзонов гена, кодирующего δ-субъединицу АТФ-синтазы, и представляют собой выравненные последовательности аминокислот. Поиск с помощью tblastx среди эволюционно далеких организмов является более информативным, так как аминокислотная последовательность более консервативна, чем нуклеотидная (влияют отбор на третичную структуру белка, вырожденность генетического кода).
Нахождение генов основных рибосомальных РНК по далекому гомологу
Создание базы данных по последовательности генома тутового шелкопряда:
При поиске гомологов 16S рРНК с помощью blastn всего выдало 61 результат. Среди них 20 гомологов на скэффолде NC_085117.1 по трем участкам (см. рисунок 4-5)23S - 104 резуьтата. Среди них 21 гомолог на скэффолде NC_085117.1, содержащих пять участков (198-290, 428-528, 1899-1991, 2218-2290, 2442-2613), кроме того, есть по одному гомологу на сеффолдах NC_085115.1 и NC_085132.1.
Рисунок 4. Первый гомолог 16S рРНК.
Рисунок 5. Второй гомолог 16S рРНК.
Карты локального сходства
Для составления карт локального сходства были выбраны 2 вида из семейства Methanobrevibacter: Methanobrevibacter arboriphilus(ID: NZ_AP019779.1) и Methanobrevibacter intestini(ID: NZ_CP187956.1). Последовательности хромосом были получены с помощью поиска на NCBI Nucleotide:
("methanobrevibacter"[Organism]) AND "chromosome"[Title]
И далее выбранные из предложенных результатов.
Использовались програмсы blastn и megsblast. Попытка использования tblastx приводила к ошибке, что также повторялось с другими, отсеянными выборками пар.
Рисунок 6. Карта локального сходства хромосом Methanobrevibacter arboriphilus и Methanobrevibacter intestini, построенная с помощью blastn. На графике отчетливо видно шесть инверсий с транслокацией (400-500К, 850-1100К, 1250-1345К, 1660-1800К, 1900-2000К, 2070-2200К), так же транслокация на промежутке 1770-1900К и делеция/вставка на 1630-1700К.
Рисунок 7. Карта локального сходства хромосом Methanobrevibacter arboriphilus и Methanobrevibacter intestini, построенная с помощью megablast. Как видно, программа выравнивает только очень схожие последовательности, видя несколько инверсий с транслокациями.