Практикум 8. Нуклеотидный BLAST

Задание 1. Поиск в геноме жабы гена, кодирующего δ-субъединицу АТФ-синтазы

Выбранный в прошлом практикуме организм – Жаба обыкновенная (Bufo Bufo). В файле protein.faa по ключевой фразе ATP synthase subunit delta. Идентификатор белка: XP_040273498.1. Фрагмент с ним был скопирован из protein.faa и сохранен в формате FASTA в файле ATPase-delta.fasta

Идентификатор нуклеотидной записи был найден в файле последовательности генома с аннотацией (GBFF) путем последовательного использования поиска по идентификатору белка, а затем по поиску вверх строчки LOCUS. Идентификатор нуклеотидной записи: NC_053390

Последовательность ДНК, содержащая кодирующую белок часть, была получена в геномном браузере.

Информация:

Идентификатор белка XP_040273498.1
Идентификатор нуклеотидной записи NC_053390.1
Начало CDS 451785718
Конец CDS 451807593
Цепь обратная
Файл с CDS NC_053390.1_451786718-451807593.fasta
Рис 1. Скриншот из геномного браузера. Зеленый участок – общие границы всего гена. Синий – транскрипт. Красный – кодирующая последовательность.
Скриншот из геномного браузера

Задание 2. Разные варианты BLAST для фрагмента ДНК

Поскольку Bufo Bufo относится к вторичноротым, для поиска BLAST было выбрано семесйство Пчёлы (Apoidea; первичноротые). BLAST проводился по базе данных RefSeq Genome Database (refseq_genomes). На вход подавалась нуклеотидная последовательность экзома, который был найден через запись о белке XP_040273498.1.

Метод blastn

При параметрах по умолчанию (word size 11, expect treshhold 0.05) результатов не было, как и при снижении размера слова до 7. При повышении expect treshold до 10 выдается 11 результатов, однако у всех e-value превышает 1.1. Вывод: использовать blastn (а тем более и megablast) для поиска гомологов между удаленными группами организмов нецелесообразно из-за нуклеотидной дивергенции и присутствию больших участков интронов.

Метод tblastn

Было получено 38 результатов с e-value достаточно малых порядков (1e-18 и ниже). Покрытие 56-63% указывает на сохранение значительной части белковой последовательности. Identity ~62-63% соответствует уровню дивергенции между разными родами пчёл.

Вывод: tblastx позволил выявит ортологи дельта-субъединицы АТФ-синтетазы с высокой достоверностью. Алгоритм пригоден для поиска удаленных гомологов.

Рис 2. Выдача tblastx.
graphic summary tblastx

Задание 3. Поиск в геноме эукариота генов основных рРНК по удаленному гомологу

1. Подготовка базы данных

Геном жабы проиндексирован командой:

makeblastdb -in "C:\bufbuf\GCF_905171765.1_aBufBuf1.1_genomic.fna" -dbtype nucl -out bufbuf_db

2. Последовательности рРНК E. coli

Файл с рРНК E. coli разделён на два FASTA-файла:

3. Локальный BLAST для 16S рРНК

Команда:

blastn -task blastn -query "C:\bufbuf\rRNA_16s.fasta" -db bufbuf_db -out rRNA_16s_out -outfmt 7

Анализ результатов (rRNA_16s_out):
Всего получен 97 находок. Большинство имеют высокие e‑value (>0.1) и короткие выравнивания – это неспецифические совпадения или короткие консервативные мотивы.

7 находок с наименьшими e-value:

query acc.ver	 subject acc.ver	 % identity	 alignment length	 mismatches	 gap opens	 q. start	 q. end	 s. start	 s. end	 evalue	 bit score
CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia       NC_053392.1     78.409  88      16      2       887     972     187903431       187903517       2.58e-08        68.0
CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia       NC_053392.1     74.528  106     24      2       887     990     95791979        95791875        3.15e-07        64.4
CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia       NC_053390.1     72.807  114     28      2       887     998     204171080       204170968       3.83e-06        60.8
CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia       NC_053391.1     72.807  114     28      2       887     998     417692926       417693038       3.83e-06        60.8
CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia       NC_053391.1     72.174  115     29      2       887     999     539989562       539989675       4.67e-05        58.1
CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia       NC_053394.1     90.244  41      4       0       1494    1534    410347117       410347157       4.67e-05        57.2
CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia       NC_053389.1     72.381  105     28      1       887     990     209478826       209478930       1.63e-04        56.3

Команда для сортировки находок (пишу для себя, чтобы можно было быстро использовать на коллоквиуме): grep -v '#' rRNA_16s_out | sort -k11,11 -g -t$'\t' | less

Лучше всего выравнивались участки 887-998 и 1494-1536 (наименьший e-value), однако наряду с ними часто встречаются участки между ними такие, как 1329-1409. Их e-value значительно выше (около единицы), однако они имеют достаточно высокий процент идентичности (около 71%).

При отдельном анализе находок я часто попадал на некодирующие области, однако находки NC_053392.1:344465875-344465833 (1494-1536) и NC_053392.1:344466070-344465990 (1329-1409) попали на ген, кодирующий эукариотическую 18S субъединицу рибосомы и шли последовательно друг за другом. Эти находки имеют биологический смысл и подтверждают существование гомлогичных участков между генами 16S рРНК кишечной палочки и 18S рРНК жабы обыкновенной.

Рис 2. Схематичное изображение геномных находок для 16S рРНК
graphic summary tblastx

4. Локальный BLAST для 23S рРНК

Команда:

blastn -task blastn -query "C:\bufbuf\rRNA_23s.fasta" -db bufbuf_db -out rRNA_23s_out -outfmt 7

Анализ результатов (rRNA_23s_out):
Всего получен 191 находка. Наиболее значимые находки имеют e‑value = 1.01e‑16, длину выравнивания 175 п.н., q.start=2442, q.end=2613.

При отдельном анализе находок были найдены целых четыре соответствующих одному и тому же гену эукариотической 28S рРНК:

CP014225.1:2234710-2237641|23S_rRNA|Escherichia NC_053389.1     78.261  69      14      1       2233    2300    555518  555450  0.001   54.5
CP014225.1:2234710-2237641|23S_rRNA|Escherichia NC_053389.1     75.581  86      21      0       1898    1983    555949  555864  7.29e-06        61.7
CP014225.1:2234710-2237641|23S_rRNA|Escherichia NC_053389.1     73.267  101     26      1       428     528     558792  558693  8.88e-05        58.1
CP014225.1:2234710-2237641|23S_rRNA|Escherichia NC_053389.1     76.344  93      21      1       198     290     559087  558996  1.72e-07        66.2

(для удобства на всякий: NC_053389.1:555518-555450). Такая же ситуация была на участке NC_053397.1:43316997-43317088. Аналогично случаю с 16S рРНК, находки имеют биологический смысл и подтверждают существование гомлогичных участков между генами 23S рРНК кишечной палочки и 28S рРНК жабы обыкновенной.

Рис 3. Схематичное изображение геномных находок для 23S рРНК
graphic summary tblastx

Задание 4. Построение карт локального сходства

Для построения карты локального сходства методами Megablast и BLASTN в качестве референсов выбраны геномы двух штаммов E. coli: K-12 MG1655 (NZ_CP169634.1) и O157:H7 EDL933 (NZ_CP028305.1). Поиск исходных последовательностей осуществлялся в базе NCBI Nucleotides по запросам (Escherichia coli K-12[Organism]) AND chromosome[Title] и (Escherichia coli O157:H7[Organism]) AND chromosome[Title] соответственно.

NCBI BLAST принимает на вход не более 1 миллиона пар нуклеотидов (геном рассматриваемых организмов имеет размер около 4.7M), поэтому BLAST был проведен локально с помощью следующих команд:
blastn -task blastn -query mg1655.fasta -subject edl933.fasta -out ecoli_blastn_results.txt -outfmt 7
blastn -task blastn -query mg1655.fasta -subject edl933.fasta -out ecoli_megablast_results.txt -outfmt 7

Визуализация была выполнена с помощью программы Python, написанной языковой моделью (это было проще, чем найти способ визуализации карты локального сходства, а использование ИИ для малых подзадач при сохранении понимания процесса не запрещено правилами выполнения практикума). Карты локального сходства получены с помощью команд
python dotplot_builder.py --output megablast.png --dpi 150 megablast_results.txt --linewidth 1.5 --alpha 0.9 --title-fontsize 32 --label-fontsize 28 --tick-fontsize 24
python dotplot_builder.py --output blastn.png --dpi 150 blastn_results.txt --linewidth 1.5 --alpha 0.9 --title-fontsize 32 --label-fontsize 28 --tick-fontsize 24

Рис.3. Карта локального сходства для megablast
dot plot megablast
Рис.4. Карта локального сходства для blastn
dot plot blastn

Выводы к картам локального сходства

На участке около 1.5M инверсия. Множество точек на карте blastn по сравнению c megablast означает наличие повторов и транспозонов в последовательностях.