Нуклеотидный BLAST

Ген, кодирующий δ-субъединицу АТФ-синтазы у сапсана

Идентификатор белка, ссылку на его последовательность: XP_055661149.1

Идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок: LOCUS NC_073725

Координаты кодирующей белок части гена (Location): 68 641 151 .. 68 645 359

Ссылка на файл с последовательностью кодирующей белок части в FASTA-формате: Ген δ-субъединицы АТФ-синтазы

map of gene
Рис.1 Ген δ-субъединицы АТФ-синтазы (красная линия) с окрестностью

BLASTING

Будем сравнивать ген у отдалённых генетически летающих существ — нашего сапсана и пчёлок (Apoidea) по базе RefSeq Genome Database (refseq_genomes)

Так как megablast нужен для поиска почти идентичных последовательностей, есть сомнения в том что он предоставит хорошую выдачу. Воспользуемся сначала blastn. На вход он принимает нуклеотидную последовательность и сравнивает её просто с нуклеотидной базой данных. Априори, здесь должна быть небольшая выдача, т.к. мы сопоставляем только 2 последовательности без трансляции в возможный рамки считывания.

Выдача blastn

Всего две находки, удовлетворительное E-value только у первой.

Будем сравнивать с выдачей tblastx — он берёт на вход нуклеотидную последовательность, транслирует в шести рамках и сравнивает с нуклеотидной базой, последовательности в которой тоже транслируются в шести рамках. Поэтому выдача должна быть в разы больше, чем от blastn.

Выдача tblastx

Выдача 100 хитов, в 50 раз больше чем от blastn, все находки с E-value ниже 0,01.

Из графического результата BLAST можем сделать вывод, что у гена есть два домена: средне консервативный и более консервативный домен ближе к концу последовательности.

Рис. 2 Выдача blastn
Рис. 3 Выдача tblastx

Гомологи рРНК в генетически далёком организме

Интересно попробовать поискать гомологию в консервативных учасках у совсем далёких оргинизмов. Аж из разных доменов. Наример: наша птичка сапсан и грам- бактерия Escherichia coli. Какие есть очень консервативные нуклеотидные последовательности? Конечно же рРНК! Вот их и попробуем выровнять - 16S и 23S рРНК прокариотика и последовательности нашего сапсана.

Мы скачали BLAST+ версии ncbi-blast-2.17.0+-win64. В консоли ввели команду

makeblastdb -in "C:\Users\mytia\Documents\ncbi_dataset\data\GCF_023634155.1\GCF_023634155.1_bFalPer1.pri_genomic.fna" -dbtype nucl -out falcon_db

— получили индексированную базу под именем falcon_db

Гомологи 16S рРНК

Теперь надо найти гомологов рРНК у E. Coli. Будем делать поиск по очень далёким организмам, то есть megablast нам не подойдёт, на вход хотим давать нуклеотидную последовательность генома и искать по разным нуклеотидным последовательностям — нужен blastn:

blastn -task blastn -query "C:\Users\mytia\Documents\ncbi_dataset\data\GCF_023634155.1\16S.txt" -db falcon_db -out 16_blast.out -evalue 0.01 -outfmt 7
— мы показали путь к файлу для которого надо искать по базе falcon_db, указали имя файла для вывода, пороговое E-value и тип вывода (табличка)

Выдача blastn для 16S рРНК

Blastn выдал 25 гомологичных учасков (hits), в 9 разных нуклеотидных последовательностях сапсана.
% identity, alignment length, mismatches и участок гена рРНК от E.Coli который выравнивался (1494 — 1536) во всех находках одинаковые, отличается место на последовательности из нашей индексированной базы данных, к которой выровнялся участок. Это указывает на множественные копии или повторные элементы в геноме. Например на скэффолде NW_026599616.1 последовательность выровнялась 7 раз. И это при том, что у каждого выравнивания низкий е-value, что указывает на статистическую значимость.

Т.к. последовательность 16S рРНК выровнялась одним и тем же фрагментом к последовательности сапсана, то все 25 хитов можно считать гомологичными участками.

Проиллюстрируем один участок выравнивания на схеме:

CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NW_026599608.1 88.372 43 5 0 1494 1536 69205 69247 4.24e-05 56.3
CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NW_026599608.1 88.372 43 5 0 1494 1536 84501 84543 4.24e-05 56.3
CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NW_026599608.1 88.372 43 5 0 1494 1536 99829 99871 4.24e-05 56.3

alignment
Рис. 4 Схема выравнивания

Гомологи 23S рРНК

blastn -task blastn -query "C:\Users\mytia\Documents\ncbi_dataset\data\GCF_023634155.1\23S.txt" -db falcon_db -out 23_blast.out -evalue 0.01 -outfmt 7

Выдача blastn для 23S рРНК

Видим, что попадания группируются в определенные регионы хромосом, наблюдаются множественные попадания в близких позициях с небольшими смещениями

Выводы

Среди 16S рРНК получилось заметно меньше находок. Это связано с тем, что 16S рРНК участвует в специфичных для прокариот процессах: 3′-конец содержит последовательность анти-Шайна-Дальгарно, с помощью которой 16S рРНК связывается с мРНК (которой нет у эукариот, у них elF4G узнаёт cap на мРНК); 3′-конец связывается с факторами, участвующими в инициации трансляции (S1 и S21).
А 23S рРНК — это компонент большой (50S) субъединицы прокариотических рибосом, отвечающий за пептидилтрансферазную активность, то есть катализ образования пептидных связей при синтезе белка. Это менее специфичные для прокариот каталитические реакции, поэтому, вероятно, для 23S рРНК больше находок.

Карты локального сходства

Надо построить карты локального сходства по результатам поиска тремя программами: megablast, blastn, tblastx

Мы решили взять бактерию, с которой работали в первых двух семестрах — Bartonella krasnovii (NZ_CP031844.2) и бактерию того же рода Bartonella tribocorum (AM260525.1)

megablast
Рис. 4 Карта по megablast
blastn
Рис. 5 Карта по blastn

В центре явно видна инверсия.
Blastn нашёл множество повторов на протяжении обоих геномов.
Видно, что в последовательности генома второй бактерии AM260525.1 есть транслокации. Первый разрыв "главной диагонали" у AM260525.1 заполняют фрагменты из середины последовательности NZ_CP031844.2, которые затем повторяются и в середине последовательности AM260525.1.
В правом нижнем углу виден участок, оказавшийся там в результате того, что кольцевые геномы секвенировались начиная с разных точек.

Сравнение плазмид

К сожалению, tblastx отказался выравнивать выбранные нами геномы, как и другие более менее длинные последовательности. Мы решили сравнить две плазмиды. Из нашей Bartonella krasnovii plasmid pOE11-1 (NZ_CP042965.1) и Bartonella schoenbuchensis R1 plasmid pVbh_BscR1 (NZ_CP019790.1)

Megablast нашёл полосы дублирующих фрагментов — 3 и 4 раза. Другие программы нашли ещё копии. Это наиболее интересные глобальные перестройки среди найденных последовательностей, которые смог выровнять tblastx.

megablast
Рис. 6 Карта по megablast
blastn
Рис. 7 Карта по blastn
tblastnx
Рис. 8 Карта по tblastnx
с