Практикум 8. Нуклеотидный BLAST

Задание 1. Поиск в геноме жабы гена, кодирующего δ-субъединицу АТФ-синтазы

Выбранный в прошлом практикуме организм – Жаба обыкновенная (Bufo Bufo). В файле protein.faa по ключевой фразе ATP synthase subunit delta. Идентификатор белка: XP_040273498.1. Фрагмент с ним был скопирован из protein.faa и сохранен в формате FASTA в файле ATPase-delta.fasta

Идентификатор нуклеотидной записи был найден в файле последовательности генома с аннотацией (GBFF) путем последовательного использования поиска по идентификатору белка, а затем по поиску вверх строчки LOCUS. Идентификатор нуклеотидной записи: NC_053390

Последовательность ДНК, содержащая кодирующую белок часть, была получена в геномном браузере.

Информация:

Идентификатор белка XP_040273498.1
Идентификатор нуклеотидной записи NC_053390.1
Начало CDS 451785718
Конец CDS 451807593
Цепь обратная
Файл с CDS NC_053390.1_451786718-451807593.fasta
Рис 1. Скриншот из геномного браузера. Зеленый участок – общие границы всего гена. Синий – транскрипт. Красный – кодирующая последовательность.
Скриншот из геномного браузера

Задание 2. Разные варианты BLAST для фрагмента ДНК

Поскольку Bufo Bufo относится к вторичноротым, для поиска BLAST было выбрано семесйство Пчёлы (Apoidea; первичноротые). BLAST проводился по базе данных RefSeq Genome Database (refseq_genomes). На вход подавалась нуклеотидная последовательность экзома, который был найден через запись о белке XP_040273498.1.

Метод blastn

При параметрах по умолчанию (word size 11, expect treshhold 0.05) результатов не было, как и при снижении размера слова до 7. При повышении expect treshold до 10 выдается 11 результатов, однако у всех e-value превышает 1.1. Вывод: использовать blastn (а тем более и megablast) для поиска гомологов между удаленными группами организмов нецелесообразно из-за нуклеотидной дивергенции и присутствию больших участков интронов.

Метод tblastx

Было получено 38 результатов с e-value достаточно малых порядков (1e-18 и ниже). Покрытие 56-63% указывает на сохранение значительной части белковой последовательности. Identity ~62-63% соответствует уровню дивергенции между разными родами пчёл.

Вывод: tblastx позволил выявит ортологи дельта-субъединицы АТФ-синтетазы с высокой достоверностью. Алгоритм пригоден для поиска удаленных гомологов.

Рис 2. Выдача tblastx.
graphic summary tblastx

Задание 3. Поиск в геноме эукариота генов основных рРНК по удаленному гомологу

С помощью команды
makeblastdb -in "C:\bufbuf\GCF_905171765.1_aBufBuf1.1_genomic.fna" -dbtype nucl -out bufbuf_db
(да, мне настолько надоело прописывать пути, что я просто работал в корневой папке)
была проиндексирована последовательность генома Bufo Bufo. Далее был скачан файл с рРНК Escherichia coli, который я разделил на два файла rRNA_16s.fasta и rRNA_23s.fasta для 16S и 23S рРНК соответственно. После я выполнил локальный BLAST (blastn) для 16S и 23S рРНК, используя полученную базу данных генома жабы.

Локальный поиск BLAST для 16S рРНК

Использованная команда: blastn -task blastn -query "C:\bufbuf\rRNA_16s.fasta" -db bufbuf_db -out rRNA_16s_out -outfmt 7
Получено 98 находок, из которых у 62 значение e-value меньше 0.5 и у 4 значений e-value меньше 1e-5. Однако эти четыре находки находились на некодирующих участках. Это можно объяснить тем, что 16S рРНК является прокариотической. Выявленные находки отражають лишь коротки консервативные фрагменты рибосомных или повторных последовательностей. Они значимы статистически, но не представляют из себя полноценный гомологичный ген.

query acc.ver	 subject acc.ver	 % identity	 alignment length	 mismatches	 gap opens	 q. start	 q. end	 s. start	 s. end	 evalue	 bit score
CP014225,1:complement(926804-928359)|16S_rRNA|Escherichia	NC_053392,1	78,409	88	16	2	887	972	187903431	187903517	2,58E-08	68
CP014225,1:complement(926804-928359)|16S_rRNA|Escherichia	NC_053392,1	74,528	106	24	2	887	990	95791979	95791875	3,15E-07	64,4
CP014225,1:complement(926804-928359)|16S_rRNA|Escherichia	NC_053391,1	72,807	114	28	2	887	998	417692926	417693038	3,83E-06	60,8
CP014225,1:complement(926804-928359)|16S_rRNA|Escherichia	NC_053390,1	72,807	114	28	2	887	998	204171080	204170968	3,83E-06	60,8
	

Продолжив поиск дальше, я обнаружил находку с достаточно низким e-value (1.63e-4), соответвующую экзону 18S субъединице эукариотической рРНК: NC_053392.1:344465873-344465833 (участок у E. coli: 1494-1536). Такая находка уже имеет смысл и подтверждает существование гомологичных участков между генами 16S рРНК кишечной палочки и 18S рРНК жабы обыкновенной.

Рис. 2. Схематичное изображение геномных находок для 16S рРНК
Схема геномных находок для 16S рРНК

Выдача blastn для 16S рРНК: rRNA_16s_out

Локальный поиск BLAST для 23S рРНК

Использованная команда: blastn -task blastn -query "C:\bufbuf\rRNA_23s.fasta" -db bufbuf_db -out rRNA_23s_out -outfmt 7
Получена 191 находка, из которых у 178 значение e-value меньше 0.5 и у 28 значений e-value составляет 1.01e-16, причем все эти находки имеют совпадение по участку 2442-2613 в разных участках эукариотического генома (в том числе и на разных хромосомах). Часть из них находилась на некодирующих участках, однако несколько интересных находок было, например, участки NC_053397.1:43320776-43320947, NC_053396.1:104499661-104499490 и NW_024400000.1:152781-152610. Они находились в экзонах генов, кодирующих 28S субъединицу эукариотической рРНК. Это приводит к выводу, что у генов, кодирующих 16S рРНК кишечной палочки и 28S рРНК жабы обыкновенной есть гомологичные высококонсервативные участки, причем достаточно длинные (171 нуклеотид).

query acc.ver	 subject acc.ver	 % identity	 alignment length	 mismatches	 gap opens	 q. start	 q. end	 s. start	 s. end	 evalue	 bit score
CP014225.1:2234710-2237641|23S_rRNA|Escherichia	NW_024401165.1	73,143	175	41	3	2442	2613	101818	101989	1,01E-16	96,9
CP014225.1:2234710-2237641|23S_rRNA|Escherichia	NW_024400128.1	73,143	175	41	3	2442	2613	47854	48025	1,01E-16	96,9
CP014225.1:2234710-2237641|23S_rRNA|Escherichia	NW_024400089.1	73,143	175	41	3	2442	2613	5301	5472	1,01E-16	96,9
CP014225.1:2234710-2237641|23S_rRNA|Escherichia	NW_024400034.1	73,143	175	41	3	2442	2613	59761	59590	1,01E-16	96,9
CP014225.1:2234710-2237641|23S_rRNA|Escherichia	NC_053397.1	73,143	175	41	3	2442	2613	43320776	43320947	1,01E-16	96,9
CP014225.1:2234710-2237641|23S_rRNA|Escherichia	NC_053396.1	73,143	175	41	3	2442	2613	104499661	104499490	1,01E-16	96,9
CP014225.1:2234710-2237641|23S_rRNA|Escherichia	NW_024400000.1	73,143	175	41	3	2442	2613	152781	152610	1,01E-16	96,9
	

Фрагмент выдачи. Верхние 3 строки соответсвуют находкам, расположенным в некодирующих участках генома Bufo Bufo. Нижние 3 – в составе экзонов гена, кодирующего эукариотическую 28S субъединицу рРНК.

Вывод

16S и 23S рРНК прокариот гомологичны 18S и 28S рРНК эукариот. Хотя их функции схожи (малая субъединица обеспечивает точность считывания, а большая катализирует синтез белка), механизмы инициации трансляции разнятся: у прокариот в этом процессе задействована последовательность Шайна-Дальгарно, которой нет у эукариот. Из-за этого нуклеотидные последовательности 16S и 23S рРНК отличаются у этих групп организмов настолько, что при поиске гомологов с помощью BLASTn выявляется низкое количество совпадений и высокие значения e-value.

Задание 4. Построение карт локального сходства

Для построения карты локального сходства методами Megablast и BLASTN в качестве референсов выбраны геномы двух штаммов E. coli: K-12 MG1655 (NZ_CP169634.1) и O157:H7 EDL933 (NZ_CP028305.1). Поиск исходных последовательностей осуществлялся в базе NCBI Nucleotides по запросам (Escherichia coli K-12[Organism]) AND chromosome[Title] и (Escherichia coli O157:H7[Organism]) AND chromosome[Title] соответственно.

NCBI BLAST принимает на вход не более 1 миллиона пар нуклеотидов (геном рассматриваемых организмов имеет размер около 4.7M), поэтому BLAST был проведен локально с помощью следующих команд:
blastn -task blastn -query mg1655.fasta -subject edl933.fasta -out ecoli_blastn_results.txt -outfmt 7
blastn -task blastn -query mg1655.fasta -subject edl933.fasta -out ecoli_megablast_results.txt -outfmt 7

Визуализация была выполнена с помощью программы Python, написанной языковой моделью (это было проще, чем найти способ визуализации карты локального сходства, а использование ИИ для малых подзадач при сохранении понимания процесса не запрещено правилами выполнения практикума). Карты локального сходства получены с помощью команд
python dotplot_builder.py --output megablast.png --dpi 150 megablast_results.txt --linewidth 1.5 --alpha 0.9 --title-fontsize 32 --label-fontsize 28 --tick-fontsize 24
python dotplot_builder.py --output blastn.png --dpi 150 blastn_results.txt --linewidth 1.5 --alpha 0.9 --title-fontsize 32 --label-fontsize 28 --tick-fontsize 24

Рис.3. Карта локального сходства для megablast
dot plot megablast
Рис.4. Карта локального сходства для blastn
dot plot blastn

Выводы к картам локального сходства

На участке около 1.5M инверсия. Множество точек на карте blastn по сравнению c megablast означает наличие повторов и транспозонов в последовательностях.