1.Поиск в геноме эукариота гена, кодирующего δ-субъединицу АТФ-синтазы

С помощью текстового поиска нашли в файле с последовательностями белков эукариота белок аннотированный как δ-субъединица АТФ-синтазы. Искали по запросу ATP synthase subunit delta

Идентификатор белка: XP_054836680.1

fasta-файл

В файле с аннотацией проведем поиск по названию белка и по строчке "LOCUS", чтобы найти идентификатор нуклеотидной записи, к которой относится ген этого белка. Найдем последний LOCUS до идентификатора нашего белка. Получаем локус NC_072794.1, который находится на 5ой хромосоме.

Ген: ATP5F1D

Коорддинаты гена: 6,055,143..6,061,809

Последовательность гена с окрестностью

График NCBI

Рис.1 Белок XP_054836680.1 на 5ой хромосоме генома Eublepharis macularius. Есть последовательность этого белка. Ген, кодирующий этот белок имеет идентификатор NC_072794.1. Белок имеет координаты кодирующей части (второй фаста файл): 6,055,143..6,061,809 на обратной цепи.

2. Попробуйте разные варианты BLAST для фрагмента ДНК

Мой эукариот является вторичноротым, поэтому в этом задании выбираю Пауков (Araneae).

Для оценки консервативности кодирующей последовательности δ-субъединицы АТФ-синтазы Eublepharis macularius были выбраны blastn и tblastx.

blastn сравнение

Рис 2. Графический результат blastn. База данных - refseq_genomes с 4мя сборками в ней. Получилось 2 находки, они очень маленькие. Длина слова была выбрана по умолчанию, как и остальные параметры.

tblastx сравнение

Рис 3. Графический результат tblastx. База данных - refseq_genomes с 4мя сборками в ней. Получилось 19 находок, они небольшие. Длина слова была выбрана по умолчани, как и другие параметры.

Таким образом, Ген δ-субъединицы АТФ-синтазы — консервативный, есть у всех эукариот, в чем можно убедиться в выдаче tblastx. На нуклеотидном уровне дивергенция последовательностей в результате, вероятно, различных мутация настолько велика, что алгоритм blastn практически не распознает гомологию. Поэтому можно сделать вывод, что для установления отдаленных эволюционных родств сравнение на уровне аминокислотных последовательностей является более правильным и успешным подходом, чем сравнение на уровне ДНК.

3. Найдите в геноме эукариота гены основных рибосомальных РНК по далекому гомологу

1) Проиндексируем последовательность генома Eublepharis macularius:

makeblastdb -in GCF_028583425.1_MPM_Emac_v1.0_genomic.fna -dbtype nucl -out gecko_db

Где:

GCF_028583425.1_MPM_Emac_v1.0_genomic.fna — мой файл с геномом

-dbtype nucl — тип базы: нуклеотидная

-out gecko_db — имя базы данных

2)Проведем blastn для 16S рРНК и 23S рРНК E.Coli по полученной базе данных:

blastn -task blastn -db gecko_db -query 16S_rRNA.fasta -out 16s_res.txt -outfmt 7

blastn -task blastn -db gecko_db -query 23S_rRNA.fasta -out 23s_res.txt -outfmt 7

При выравнивании 16S рРНК E. coli было обнаружено ~570 совпадений, из которых E-value менее 10^-2 имело ~280 находок. Все они соответствуют участку 1494-1536 рРНК E. coli.

При выравнивании 23S рРНК E. coli было обнаружено ~1130 совпадений, из которых E-value менее 10^-2 имело ~1120 находок. Они уже соответствуют разным участкам рРНК E. coli.

Выдача blastn для 16S

Выдача blastn для 23S

иллюстрация 1

Рис 4. Пример гомолога последовательности 16S рРНК E. coli, найденного на '-'-цепи

иллюстрация 1

Рис 5. Гомолог последовательности 16S рРНК E. coli, найденный на скэффолде NW_026559737.1

4. Подберите пару геномов и постройте карты их локального сходства

Для выполения задания были взяты бактерии Streptococcus pyogenes и Streptococcus iniae. Поиск проводился через NCBI Genomes, уровень сборки обоих геномов Complete Genome. Все параметры при составлении карт локального сходства были выбраны по умолчанию.

tblastx сравнение

Рис 6. Карта локального сходства хромосом, построенная по результатам blastn.

tblastx сравнение

Рис 7. Карта локального сходства хромосом, построенная по результатам megablast.

Полученные последовательности были выравнены друг с другом алгоритмами blastn и megablast. Можно заметить, что алгоритм megablast обнаружил меньше сходств, чем blastn. Это связано с тем, что megablast выравнивает лишь очень похожие последовательности. Также была попытка применить алгоритм tblastx, но это привело к выдаче ошибки. Скорее всего, это связано с избыточным количеством выравниваний для разных рамок считывания.

На результатах выравнивания можно заметить инверсии, делеции и вставки.