С помощью текстового поиска нашли в файле с последовательностями белков эукариота белок аннотированный как δ-субъединица АТФ-синтазы. Искали по запросу ATP synthase subunit delta
Идентификатор белка: XP_054836680.1
В файле с аннотацией проведем поиск по названию белка и по строчке "LOCUS", чтобы найти идентификатор нуклеотидной записи, к которой относится ген этого белка. Найдем последний LOCUS до идентификатора нашего белка. Получаем локус NC_072794.1, который находится на 5ой хромосоме.
Ген: ATP5F1D
Коорддинаты гена: 6,055,143..6,061,809
Последовательность гена с окрестностью
Рис.1 Белок XP_054836680.1 на 5ой хромосоме генома Eublepharis macularius. Есть последовательность этого белка. Ген, кодирующий этот белок имеет идентификатор NC_072794.1. Белок имеет координаты кодирующей части (второй фаста файл): 6,055,143..6,061,809 на обратной цепи.
Мой эукариот является вторичноротым, поэтому в этом задании выбираю Пауков (Araneae).
Для оценки консервативности кодирующей последовательности δ-субъединицы АТФ-синтазы Eublepharis macularius были выбраны blastn и tblastx.
Рис 2. Графический результат blastn. База данных - refseq_genomes с 4мя сборками в ней. Получилось 2 находки, они очень маленькие. Длина слова была выбрана по умолчанию, как и остальные параметры.
Рис 3. Графический результат tblastx. База данных - refseq_genomes с 4мя сборками в ней. Получилось 19 находок, они небольшие. Длина слова была выбрана по умолчани, как и другие параметры.
Таким образом, Ген δ-субъединицы АТФ-синтазы — консервативный, есть у всех эукариот, в чем можно убедиться в выдаче tblastx. На нуклеотидном уровне дивергенция последовательностей в результате, вероятно, различных мутация настолько велика, что алгоритм blastn практически не распознает гомологию. Поэтому можно сделать вывод, что для установления отдаленных эволюционных родств сравнение на уровне аминокислотных последовательностей является более правильным и успешным подходом, чем сравнение на уровне ДНК.
1) Проиндексируем последовательность генома Eublepharis macularius:
makeblastdb -in GCF_028583425.1_MPM_Emac_v1.0_genomic.fna -dbtype nucl -out gecko_db
Где:
GCF_028583425.1_MPM_Emac_v1.0_genomic.fna — мой файл с геномом
-dbtype nucl — тип базы: нуклеотидная
-out gecko_db — имя базы данных
2)Проведем blastn для 16S рРНК и 23S рРНК E.Coli по полученной базе данных:
blastn -task blastn -db gecko_db -query 16S_rRNA.fasta -out 16s_res.txt -outfmt 7
blastn -task blastn -db gecko_db -query 23S_rRNA.fasta -out 23s_res.txt -outfmt 7
При выравнивании 16S рРНК E. coli было обнаружено ~570 совпадений, из которых E-value менее 10^-2 имело ~280 находок. Все они соответствуют участку 1494-1536 рРНК E. coli.
При выравнивании 23S рРНК E. coli было обнаружено ~1130 совпадений, из которых E-value менее 10^-2 имело ~1120 находок. Они уже соответствуют разным участкам рРНК E. coli.
Рис 4. Пример гомолога последовательности 16S рРНК E. coli, найденного на '-'-цепи
Рис 5. Гомолог последовательности 16S рРНК E. coli, найденный на скэффолде NW_026559737.1
Для выполения задания были взяты бактерии Streptococcus pyogenes и Streptococcus iniae. Поиск проводился через NCBI Genomes, уровень сборки обоих геномов Complete Genome. Все параметры при составлении карт локального сходства были выбраны по умолчанию.
Рис 6. Карта локального сходства хромосом, построенная по результатам blastn.
Рис 7. Карта локального сходства хромосом, построенная по результатам megablast.
Полученные последовательности были выравнены друг с другом алгоритмами blastn и megablast. Можно заметить, что алгоритм megablast обнаружил меньше сходств, чем blastn. Это связано с тем, что megablast выравнивает лишь очень похожие последовательности. Также была попытка применить алгоритм tblastx, но это привело к выдаче ошибки. Скорее всего, это связано с избыточным количеством выравниваний для разных рамок считывания.
На результатах выравнивания можно заметить инверсии, делеции и вставки.