Выбранный в прошлом практикуме организм – Жаба обыкновенная (Bufo Bufo). В файле protein.faa по ключевой фразе ATP synthase subunit delta. Идентификатор белка: XP_040273498.1. Фрагмент с ним был скопирован из protein.faa и сохранен в формате FASTA в файле ATPase-delta.fasta
Идентификатор нуклеотидной записи был найден в файле последовательности генома с аннотацией (GBFF) путем последовательного использования поиска по идентификатору белка, а затем по поиску вверх строчки LOCUS. Идентификатор нуклеотидной записи: NC_053390
Последовательность ДНК, содержащая кодирующую белок часть, была получена в геномном браузере.
Информация:
| Идентификатор белка | XP_040273498.1 |
|---|---|
| Идентификатор нуклеотидной записи | NC_053390.1 |
| Начало CDS | 451785718 |
| Конец CDS | 451807593 |
| Цепь | обратная |
| Файл с CDS | NC_053390.1_451786718-451807593.fasta |
Поскольку Bufo Bufo относится к вторичноротым, для поиска BLAST было выбрано семесйство Пчёлы (Apoidea; первичноротые). BLAST проводился по базе данных RefSeq Genome Database (refseq_genomes). На вход подавалась нуклеотидная последовательность экзома, который был найден через запись о белке XP_040273498.1.
При параметрах по умолчанию (word size 11, expect treshhold 0.05) результатов не было, как и при снижении размера слова до 7. При повышении expect treshold до 10 выдается 11 результатов, однако у всех e-value превышает 1.1. Вывод: использовать blastn (а тем более и megablast) для поиска гомологов между удаленными группами организмов нецелесообразно из-за нуклеотидной дивергенции и присутствию больших участков интронов.
Было получено 38 результатов с e-value достаточно малых порядков (1e-18 и ниже). Покрытие 56-63% указывает на сохранение значительной части белковой последовательности. Identity ~62-63% соответствует уровню дивергенции между разными родами пчёл.
Вывод: tblastx позволил выявит ортологи дельта-субъединицы АТФ-синтетазы с высокой достоверностью. Алгоритм пригоден для поиска удаленных гомологов.
С помощью команды
makeblastdb -in "C:\bufbuf\GCF_905171765.1_aBufBuf1.1_genomic.fna" -dbtype nucl -out bufbuf_db
(да, мне настолько надоело прописывать пути, что я просто работал в корневой папке)
была проиндексирована последовательность генома Bufo Bufo. Далее был скачан файл с рРНК Escherichia coli, который я разделил
на два файла rRNA_16s.fasta и rRNA_23s.fasta для 16S и 23S рРНК соответственно. После я выполнил локальный BLAST (blastn) для 16S и 23S рРНК,
используя полученную базу данных генома жабы.
Использованная команда: blastn -task blastn -query "C:\bufbuf\rRNA_16s.fasta" -db bufbuf_db -out rRNA_16s_out -outfmt 7
Получено 98 находок, из которых у 62 значение e-value меньше 0.5 и у 4 значений e-value меньше 1e-5. Однако эти четыре находки находились на
некодирующих участках. Это можно объяснить тем, что 16S рРНК является прокариотической. Выявленные находки отражають лишь коротки консервативные фрагменты рибосомных или повторных последовательностей. Они значимы статистически,
но не представляют из себя полноценный гомологичный ген.
query acc.ver subject acc.ver % identity alignment length mismatches gap opens q. start q. end s. start s. end evalue bit score CP014225,1:complement(926804-928359)|16S_rRNA|Escherichia NC_053392,1 78,409 88 16 2 887 972 187903431 187903517 2,58E-08 68 CP014225,1:complement(926804-928359)|16S_rRNA|Escherichia NC_053392,1 74,528 106 24 2 887 990 95791979 95791875 3,15E-07 64,4 CP014225,1:complement(926804-928359)|16S_rRNA|Escherichia NC_053391,1 72,807 114 28 2 887 998 417692926 417693038 3,83E-06 60,8 CP014225,1:complement(926804-928359)|16S_rRNA|Escherichia NC_053390,1 72,807 114 28 2 887 998 204171080 204170968 3,83E-06 60,8
Продолжив поиск дальше, я обнаружил находку с достаточно низким e-value (1.63e-4), соответвующую экзону 18S субъединице эукариотической рРНК: NC_053392.1:344465873-344465833 (участок у E. coli: 1494-1536). Такая находка уже имеет смысл и подтверждает существование гомологичных участков между генами 16S рРНК кишечной палочки и 18S рРНК жабы обыкновенной.
Выдача blastn для 16S рРНК: rRNA_16s_out
Использованная команда: blastn -task blastn -query "C:\bufbuf\rRNA_23s.fasta" -db bufbuf_db -out rRNA_23s_out -outfmt 7
Получена 191 находка, из которых у 178 значение e-value меньше 0.5 и у 28 значений e-value составляет 1.01e-16, причем все эти находки имеют совпадение
по участку 2442-2613 в разных участках эукариотического генома (в том числе и на разных хромосомах). Часть из них находилась на некодирующих участках,
однако несколько интересных находок было, например, участки NC_053397.1:43320776-43320947,
NC_053396.1:104499661-104499490 и NW_024400000.1:152781-152610. Они находились в экзонах генов, кодирующих 28S субъединицу
эукариотической рРНК. Это приводит к выводу, что у генов, кодирующих 16S рРНК кишечной палочки и 28S рРНК жабы обыкновенной есть гомологичные высококонсервативные участки,
причем достаточно длинные (171 нуклеотид).
query acc.ver subject acc.ver % identity alignment length mismatches gap opens q. start q. end s. start s. end evalue bit score CP014225.1:2234710-2237641|23S_rRNA|Escherichia NW_024401165.1 73,143 175 41 3 2442 2613 101818 101989 1,01E-16 96,9 CP014225.1:2234710-2237641|23S_rRNA|Escherichia NW_024400128.1 73,143 175 41 3 2442 2613 47854 48025 1,01E-16 96,9 CP014225.1:2234710-2237641|23S_rRNA|Escherichia NW_024400089.1 73,143 175 41 3 2442 2613 5301 5472 1,01E-16 96,9 CP014225.1:2234710-2237641|23S_rRNA|Escherichia NW_024400034.1 73,143 175 41 3 2442 2613 59761 59590 1,01E-16 96,9 CP014225.1:2234710-2237641|23S_rRNA|Escherichia NC_053397.1 73,143 175 41 3 2442 2613 43320776 43320947 1,01E-16 96,9 CP014225.1:2234710-2237641|23S_rRNA|Escherichia NC_053396.1 73,143 175 41 3 2442 2613 104499661 104499490 1,01E-16 96,9 CP014225.1:2234710-2237641|23S_rRNA|Escherichia NW_024400000.1 73,143 175 41 3 2442 2613 152781 152610 1,01E-16 96,9
Фрагмент выдачи. Верхние 3 строки соответсвуют находкам, расположенным в некодирующих участках генома Bufo Bufo. Нижние 3 – в составе экзонов гена, кодирующего эукариотическую 28S субъединицу рРНК.
16S и 23S рРНК прокариот гомологичны 18S и 28S рРНК эукариот. Хотя их функции схожи (малая субъединица обеспечивает точность считывания, а большая катализирует синтез белка), механизмы инициации трансляции разнятся: у прокариот в этом процессе задействована последовательность Шайна-Дальгарно, которой нет у эукариот. Из-за этого нуклеотидные последовательности 16S и 23S рРНК отличаются у этих групп организмов настолько, что при поиске гомологов с помощью BLASTn выявляется низкое количество совпадений и высокие значения e-value.
Для построения карты локального сходства методами Megablast и BLASTN в качестве референсов выбраны геномы двух штаммов E. coli: K-12 MG1655 (NZ_CP169634.1) и O157:H7 EDL933 (NZ_CP028305.1). Поиск исходных последовательностей осуществлялся в базе NCBI Nucleotides по запросам (Escherichia coli K-12[Organism]) AND chromosome[Title] и (Escherichia coli O157:H7[Organism]) AND chromosome[Title] соответственно.
NCBI BLAST принимает на вход не более 1 миллиона пар нуклеотидов (геном рассматриваемых организмов имеет размер около 4.7M), поэтому
BLAST был проведен локально с помощью следующих команд:
blastn -task blastn -query mg1655.fasta -subject edl933.fasta -out ecoli_blastn_results.txt -outfmt 7
blastn -task blastn -query mg1655.fasta -subject edl933.fasta -out ecoli_megablast_results.txt -outfmt 7
Визуализация была выполнена с помощью программы Python, написанной
языковой моделью (это было проще, чем найти способ визуализации карты локального сходства, а использование ИИ для малых подзадач при
сохранении понимания процесса не запрещено правилами выполнения практикума). Карты локального сходства получены с помощью команд
python dotplot_builder.py --output megablast.png --dpi 150 megablast_results.txt --linewidth 1.5 --alpha 0.9 --title-fontsize 32 --label-fontsize 28 --tick-fontsize 24
python dotplot_builder.py --output blastn.png --dpi 150 blastn_results.txt --linewidth 1.5 --alpha 0.9 --title-fontsize 32 --label-fontsize 28 --tick-fontsize 24
На участке около 1.5M инверсия. Множество точек на карте blastn по сравнению c megablast означает наличие повторов и транспозонов в последовательностях.