Учебный сайтик
Кирилла Прокаповича

Поиск в геноме эукариота гена, кодирующего дельта субъединицу АТФ синтазы

Так как для задания я выбрал синего кита с большим геномом для поиска нужно последовательности я использовал такую команду:

grep -A 10 "ATP syntase subunit delta" protein.faa

В файле нашлась только одна такая последовательность, я ее скопировал и сохранил в отдельном файле. AC у такой последовательность XP_036702995.1 в NCBI, в RefSeq AC XM_036847100.1.


Рис. 1. Нуклеотидная последовательность, включающая кодирующий белок дельта субъединицы АТФ-синтазы участок гена

Идентификатор белка: XP_036702995.1 (ссылка на запись в NCBI)

Идентификатор нуклеотидной записи, к которой относится белок: XM_036847100

Координаты кодирующей части белка: 179-685

Кодирующая часть гена в FASTA файле

Разные алгоритмы BLAST

Так как синий кит это вторичноротое животное, для задания я решил использовать поиск по таксону Пчёлы (Apoidea).

Сначала я использовал blastn, чтобы найти гомологичные гены, которые ищет по нуклеотидным последовательностям.

Параметры blastn:

По таким параметрам не нашлось ни одной находки. При изменении expect treshold до 1 находится 6 находок, но у них слишком высокий e-value для того, чтобы считать их достоверными, от 0.27. Не найдены гомологичные гены, так как синий кит и пчёлы далеко друг от друга таксономически, следовательно различия в геноме слишком большие, чтоы что-то найти.

Посмотрим теперь найдется ли что-то, если использовать tblastx, который использует псевдобелковую базу данных, то есть транслированную из нуклеотидной базы данных.

Параметры tblastx:


Рис. 1. Графическое отображение находок. Синим показаны находки с весом 40-50, зеленым - 50-80, розовым - 80-200, черным - меньше 40.

Как видно находок в разы больше, чем в предыдущем варианте, так как аминокислотные последовательности меняются не так быстро, как нуклеотидные, что связано с вырожденностью генетического кода и синонимичными заменами нуклеотидов, которые не приводят к изменению аминокислоты.