Выбранный в прошлом практикуме организм – Жаба обыкновенная (Bufo Bufo). В файле protein.faa по ключевой фразе ATP synthase subunit delta. Идентификатор белка: XP_040273498.1. Фрагмент с ним был скопирован из protein.faa и сохранен в формате FASTA в файле ATPase-delta.fasta
Идентификатор нуклеотидной записи был найден в файле последовательности генома с аннотацией (GBFF) путем последовательного использования поиска по идентификатору белка, а затем по поиску вверх строчки LOCUS. Идентификатор нуклеотидной записи: NC_053390
Последовательность ДНК, содержащая кодирующую белок часть, была получена в геномном браузере.
Информация:
| Идентификатор белка | XP_040273498.1 |
|---|---|
| Идентификатор нуклеотидной записи | NC_053390.1 |
| Начало CDS | 451785718 |
| Конец CDS | 451807593 |
| Цепь | обратная |
| Файл с CDS | NC_053390.1_451786718-451807593.fasta |
Поскольку Bufo Bufo относится к вторичноротым, для поиска BLAST было выбрано семесйство Пчёлы (Apoidea; первичноротые). BLAST проводился по базе данных RefSeq Genome Database (refseq_genomes). На вход подавалась нуклеотидная последовательность экзома, который был найден через запись о белке XP_040273498.1.
При параметрах по умолчанию (word size 11, expect treshhold 0.05) результатов не было, как и при снижении размера слова до 7. При повышении expect treshold до 10 выдается 11 результатов, однако у всех e-value превышает 1.1. Вывод: использовать blastn (а тем более и megablast) для поиска гомологов между удаленными группами организмов нецелесообразно из-за нуклеотидной дивергенции и присутствию больших участков интронов.
Было получено 38 результатов с e-value достаточно малых порядков (1e-18 и ниже). Покрытие 56-63% указывает на сохранение значительной части белковой последовательности. Identity ~62-63% соответствует уровню дивергенции между разными родами пчёл.
Вывод: tblastx позволил выявит ортологи дельта-субъединицы АТФ-синтетазы с высокой достоверностью. Алгоритм пригоден для поиска удаленных гомологов.
Геном жабы проиндексирован командой:
makeblastdb -in "C:\bufbuf\GCF_905171765.1_aBufBuf1.1_genomic.fna" -dbtype nucl -out bufbuf_db
Файл с рРНК E. coli разделён на два FASTA-файла:
Команда:
blastn -task blastn -query "C:\bufbuf\rRNA_16s.fasta" -db bufbuf_db -out rRNA_16s_out -outfmt 7
Анализ результатов (rRNA_16s_out):
Всего получен 97 находок. Большинство имеют высокие e‑value (>0.1) и короткие выравнивания – это неспецифические совпадения или короткие консервативные мотивы.
7 находок с наименьшими e-value:
query acc.ver subject acc.ver % identity alignment length mismatches gap opens q. start q. end s. start s. end evalue bit score CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NC_053392.1 78.409 88 16 2 887 972 187903431 187903517 2.58e-08 68.0 CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NC_053392.1 74.528 106 24 2 887 990 95791979 95791875 3.15e-07 64.4 CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NC_053390.1 72.807 114 28 2 887 998 204171080 204170968 3.83e-06 60.8 CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NC_053391.1 72.807 114 28 2 887 998 417692926 417693038 3.83e-06 60.8 CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NC_053391.1 72.174 115 29 2 887 999 539989562 539989675 4.67e-05 58.1 CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NC_053394.1 90.244 41 4 0 1494 1534 410347117 410347157 4.67e-05 57.2 CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NC_053389.1 72.381 105 28 1 887 990 209478826 209478930 1.63e-04 56.3
Команда для сортировки находок (пишу для себя, чтобы можно было быстро использовать на коллоквиуме): grep -v '#' rRNA_16s_out | sort -k11,11 -g -t$'\t' | less
Лучше всего выравнивались участки 887-998 и 1494-1536 (наименьший e-value), однако наряду с ними часто встречаются участки между ними такие, как 1329-1409. Их e-value значительно выше (около единицы), однако они имеют достаточно высокий процент идентичности (около 71%).
При отдельном анализе находок я часто попадал на некодирующие области, однако находки NC_053392.1:344465875-344465833 (1494-1536) и NC_053392.1:344466070-344465990 (1329-1409) попали на ген, кодирующий эукариотическую 18S субъединицу рибосомы и шли последовательно друг за другом. Эти находки имеют биологический смысл и подтверждают существование гомлогичных участков между генами 16S рРНК кишечной палочки и 18S рРНК жабы обыкновенной.
Команда:
blastn -task blastn -query "C:\bufbuf\rRNA_23s.fasta" -db bufbuf_db -out rRNA_23s_out -outfmt 7
Анализ результатов (rRNA_23s_out):
Всего получен 191 находка. Наиболее значимые находки имеют e‑value = 1.01e‑16, длину выравнивания 175 п.н., q.start=2442, q.end=2613.
При отдельном анализе находок были найдены целых четыре соответствующих одному и тому же гену эукариотической 28S рРНК:
CP014225.1:2234710-2237641|23S_rRNA|Escherichia NC_053389.1 78.261 69 14 1 2233 2300 555518 555450 0.001 54.5 CP014225.1:2234710-2237641|23S_rRNA|Escherichia NC_053389.1 75.581 86 21 0 1898 1983 555949 555864 7.29e-06 61.7 CP014225.1:2234710-2237641|23S_rRNA|Escherichia NC_053389.1 73.267 101 26 1 428 528 558792 558693 8.88e-05 58.1 CP014225.1:2234710-2237641|23S_rRNA|Escherichia NC_053389.1 76.344 93 21 1 198 290 559087 558996 1.72e-07 66.2
(для удобства на всякий: NC_053389.1:555518-555450). Такая же ситуация была на участке NC_053397.1:43316997-43317088. Аналогично случаю с 16S рРНК, находки имеют биологический смысл и подтверждают существование гомлогичных участков между генами 23S рРНК кишечной палочки и 28S рРНК жабы обыкновенной.
Для построения карты локального сходства методами Megablast и BLASTN в качестве референсов выбраны геномы двух штаммов E. coli: K-12 MG1655 (NZ_CP169634.1) и O157:H7 EDL933 (NZ_CP028305.1). Поиск исходных последовательностей осуществлялся в базе NCBI Nucleotides по запросам (Escherichia coli K-12[Organism]) AND chromosome[Title] и (Escherichia coli O157:H7[Organism]) AND chromosome[Title] соответственно.
NCBI BLAST принимает на вход не более 1 миллиона пар нуклеотидов (геном рассматриваемых организмов имеет размер около 4.7M), поэтому
BLAST был проведен локально с помощью следующих команд:
blastn -task blastn -query mg1655.fasta -subject edl933.fasta -out ecoli_blastn_results.txt -outfmt 7
blastn -task blastn -query mg1655.fasta -subject edl933.fasta -out ecoli_megablast_results.txt -outfmt 7
Визуализация была выполнена с помощью программы Python, написанной
языковой моделью (это было проще, чем найти способ визуализации карты локального сходства, а использование ИИ для малых подзадач при
сохранении понимания процесса не запрещено правилами выполнения практикума). Карты локального сходства получены с помощью команд
python dotplot_builder.py --output megablast.png --dpi 150 megablast_results.txt --linewidth 1.5 --alpha 0.9 --title-fontsize 32 --label-fontsize 28 --tick-fontsize 24
python dotplot_builder.py --output blastn.png --dpi 150 blastn_results.txt --linewidth 1.5 --alpha 0.9 --title-fontsize 32 --label-fontsize 28 --tick-fontsize 24
На участке около 1.5M инверсия. Множество точек на карте blastn по сравнению c megablast означает наличие повторов и транспозонов в последовательностях.