Практикум 8

Последовательность-запрос

На примере фрагмента генома Pelobates cultripes рассмотрим различия в работе различных алгоритмов BLAST.

Рассматриваемый организм – Pelobates cultripes (западная чесночница)

Был взят фрагмент 14 хромосомы (accession OW240925), координаты 982000:990999 (то есть последовательность имеет длину 9000 нуклеотидов).

В этот фрагмент попали целиком 5 генов. У одного из них есть аннотированная CDS, содержащая 6 экзонов. В аннотации указано, что это гипотетический белок.

Рис. 1 Схема расположения аннотированных элементов в данном фрагменте, полученная при помощи геномного браузера NCBI; зелёным показаны гены, фиолетовым показана мРНК, красным показана CDS, чёрным показаны экзоны; красными и синим маркерами показаны границы выбранного фрагмента.

Поиск проводился по семейству Muridae (taxid:10066). Изначально я хотела искать по безногим амфибиям, но потом подумала, что их геномы вряд ли хорошо аннотированы, и интереснее будет посмотреть на ком-то лучше изученном, хоть и сильно менее родственном.

Pelobates cultripes и семейство мышиные относятся к разным классам.

Результаты поиска при помощи разных алгоритмов

Использовался автоматически установленных порог значимости 0,05

blastn: при автоматической длине слова (11) находится 24 последовательности (таблица находок blastx); я пробовала снизить длину слова до 7, при этом BLAST начинает ругаться, что превышен лимит использования CPU.

У всех находок query cover не очень большой, и, как можно увидеть на рис. 2 они все покрывают, в основном, один и тот же кусочек.

Рис. 2 Диаграмма с вкладки Graphic summary, которую создал BLAST

Причём это не какой-то специфический кусочек, а просто участок предполагаемой CDS.

Рис. 3 Схема расположения аннотированных элементов в данном фрагменте, полученная при помощи геномного браузера NCBI; зелёным показаны гены, фиолетовым показана мРНК, красным показана CDS, чёрным показаны экзоны; красными и синим маркерами показаны границы выбранного фрагмента.
Зелёными маркерами приблизительно показан участок, к которому, в основном, BLAST нашёл похожие последовательности.

Дальше пошла полная отсебятина, даже не знаю, зачем

Если просто внешне посмотреть на этот участок, который попадает в выравнивания (рис. 3), кажется, что там как-то подозрительно много гуанина относительно других нуклеотидов.

Я посчитала доли всех нуклеотидов (рис. 4), и будто бы правда есть смещение в распределении нуклеотидов, и это странно, потому что у BLAST есть фильтр последовательностей с низкой сложностью. Может быть, это просто незначительное смещение.

Рис. 3 Диаграмма с вкладки Graphic summary, которую создал BLAST
Рис. 4 Диаграмма, отражающая нуклеотидеый состав для запроса

megablast: не нашёл ничего (что понятно для таких далёких друг от друга отрагизмов).

blastx: нашлось 83 последовательности (таблица находок blastx), среди них много белков ORF2 (фермент c эндонуклеазной и обратной транскриптазной активностью, который содержится в LINEs – long intersperse nuclear elements) и цинковых пальцев.

tblastx: выдавал ошибку, что превышен лимит исопльзования CPU, что бы я ни делала (снижение порога e-value, уменьшение количества последовательностей в выдаче, ограничение организмов до, напрмер, Mus musculus). Почему-то нет возможности сделать длину слова больше 3, а при такой длине слова, видимо, нельзя в качестве запроса вводить настолько длинные последовательноти.

Специфика различных алгоритмов

Все эти алгоритмы могут быть нужны в зависимости от задачи, которую нужно с их помощью выполнить:

Поиск основных рибосомальных РНК в геноме эукариота гены по далекому гомологу

Создание базы данных

BLAST для работы нужна особая, проиндексированная база данных. Чтобы создать её из файла fasta, использовалась следующая команда:


    makeblastdb -in <путь к файлу>/GCA_933207985.1_aPelCul1.1_chrom_genomic.fna" -dbtype nucl
    -out "../db/spadefoot_toad_genome"

dbtype – обязательный аргумент, принимает значения "nucl" или "prot".

Поиск

В качестве запроса были взяты последовательности 16S и 23S рРНК E. coli.

Для поиска я выбрала алгоритм blastn, так как эти РНК не кодируют никаких белков, и поэтому транслировать их не имеет никакого смысла, а также E. coli и Pelobates cultripes явно не очень эволюционно близки, поэтому megablast, скорее всего, ничего не найдёт.

Поиск проводился с параметрами:

Использовалась такая команда:


    blastn -task blastn -db "../db/spadefoot_toad_genome" -query <путь к файлу> -out <путь к файлу>
    -evalue 0.05 -outfmt "7 qaccver saccver pident length mismatch gapopen qstart qend sstart send
    evalue bitscore sstrand" -word_size 7

Полученные файлы:

Для 16S РНК получилось 5 находок, а для 23S РНК – 21.

У эукариот помимо эукариотических рибосом есть митохондриальные, а у растений ещё и пластидные. Вот здесь написано, что гены митохондриальных рРНК находятся в митохондриальном геноме, а в этой сборке нет митохондриальной ДНК. Помимо этого, каждая рРНК закодирована не в единственном экземпляре, чтобы можно было параллельно синтезировать большое их количество.

Чтобы найти аннотацию для найденных участков, я исопльзовала геномный браузер NCBI. Для половины запросов он стабильно говорит, что таких координат не существует, я так и не поняла, почему, зато для другой половины правда есть аннотация SSU_rRNA (small subunit) или LSU_rRNA (large subunit) соответственно. Другой вопрос, что там можно найти аннотацию, например, SSU_rRNA_microsporidia, что странно, но, видимо, это просто издержки автоматической аннотации