Практикум 8
Последовательность-запрос
На примере фрагмента генома Pelobates cultripes рассмотрим различия в работе различных алгоритмов BLAST.
Был взят фрагмент 14 хромосомы (accession OW240925), координаты 982000:990999 (то есть последовательность имеет длину 9000 нуклеотидов).
В этот фрагмент попали целиком 5 генов. У одного из них есть аннотированная CDS, содержащая 6 экзонов. В аннотации указано, что это гипотетический белок.
Поиск проводился по семейству Muridae (taxid:10066). Изначально я хотела искать по безногим амфибиям, но потом подумала, что их геномы вряд ли хорошо аннотированы, и интереснее будет посмотреть на ком-то лучше изученном, хоть и сильно менее родственном.
Pelobates cultripes и семейство мышиные относятся к разным классам.
Результаты поиска при помощи разных алгоритмов
Использовался автоматически установленных порог значимости 0,05
blastn: при автоматической длине слова (11) находится 24 последовательности (таблица находок blastx); я пробовала снизить длину слова до 7, при этом BLAST начинает ругаться, что превышен лимит использования CPU.
У всех находок query cover не очень большой, и, как можно увидеть на рис. 2 они все покрывают, в основном, один и тот же кусочек.
Причём это не какой-то специфический кусочек, а просто участок предполагаемой CDS.
Дальше пошла полная отсебятина, даже не знаю, зачем
Если просто внешне посмотреть на этот участок, который попадает в выравнивания (рис. 3), кажется, что там как-то подозрительно много гуанина относительно других нуклеотидов.
Я посчитала доли всех нуклеотидов (рис. 4), и будто бы правда есть смещение в распределении нуклеотидов, и это странно, потому что у BLAST есть фильтр последовательностей с низкой сложностью. Может быть, это просто незначительное смещение.
megablast: не нашёл ничего (что понятно для таких далёких друг от друга отрагизмов).
blastx: нашлось 83 последовательности (таблица находок blastx), среди них много белков ORF2 (фермент c эндонуклеазной и обратной транскриптазной активностью, который содержится в LINEs – long intersperse nuclear elements) и цинковых пальцев.
tblastx: выдавал ошибку, что превышен лимит исопльзования CPU, что бы я ни делала (снижение порога e-value, уменьшение количества последовательностей в выдаче, ограничение организмов до, напрмер, Mus musculus). Почему-то нет возможности сделать длину слова больше 3, а при такой длине слова, видимо, нельзя в качестве запроса вводить настолько длинные последовательноти.
Специфика различных алгоритмов
Все эти алгоритмы могут быть нужны в зависимости от задачи, которую нужно с их помощью выполнить:
- blastn – довольно универсальный метод, может найти не очень родственные последовательности, хотя и работает
относительно долго. Минимальная длина слова, которую можно указать в интерфейсе NCBI – 7, что иногда бывает слишком много.
Если у нас есть, например, последовательность гена, принадлежащего не очень хорошо изученому организму, у которого "соседи" по филогенетическому древу также не очень хорошо аннотированы, то при помощи blastn можно найти более далёкие гомологи и предсказать функцию этого гена. - megablast – осуществляет быстрый поиск, но находит только близкородственнsе последовательности. Если перед нами не стоит задача изучения макроэволюционных процессов, а в базе данных точно есть этот организм или его близкие родственники, то теоретически можно, например, выяснять филогенетические отношения, скажем, между разными штаммами.
- blastx – если у нас есть уже сплайсированная мРНК (либо речь идёт о прокариотах), то blstx может помочь более корректно
отследить эволюцию белков, так как она практически не чувствительна к синонимичным мутациям (изменение кодона может приводить к
изменению скорости синтеза а потому и фолдинга белка, но это мы опустим).
Если мы хотим повлиять на функции белка при помощи точечных аминокислотных замен, может быть полезно посмотреть на то, какие замены уже есть у родственных организмов и как они влияют на функции белка.
Также я могу представить ситуацию, когда нужно понять, какая мутация привела к какому-то заболеванию конкретного пациента, потому что, скорее всего, это была не синонимичная мутация. - tblastx – может быть полезен, потому что часто в базах данных может быть геном, но не протеом организма.
Допустим, нужно найти гомологи прокариотического белок-кодирующего гена среди других прокариот, не обязательно близкородственных. У нас нет протеома этих организмов, но автоматичесая транскрипция даст в том числе правильные последовательности белков при отсутствии сплайсинга. Кроме того, blastn не найдёт большое количество гомологов, так как из-за синонимичных однонуклеотидных замен может не образоваться "зацепка" нужной длины.
Поиск основных рибосомальных РНК в геноме эукариота гены по далекому гомологу
Создание базы данных
BLAST для работы нужна особая, проиндексированная база данных. Чтобы создать её из файла fasta, использовалась следующая команда:
makeblastdb -in <путь к файлу>/GCA_933207985.1_aPelCul1.1_chrom_genomic.fna" -dbtype nucl -out "../db/spadefoot_toad_genome"
dbtype – обязательный аргумент, принимает значения "nucl" или "prot".
Поиск
В качестве запроса были взяты последовательности 16S и 23S рРНК E. coli.
Для поиска я выбрала алгоритм blastn, так как эти РНК не кодируют никаких белков, и поэтому транслировать их не имеет никакого смысла, а также E. coli и Pelobates cultripes явно не очень эволюционно близки, поэтому megablast, скорее всего, ничего не найдёт.
Поиск проводился с параметрами:
- Пороговое значение e-value: 0.05
- Формат вывода: таблица с хитрым набором полей
- Длина слова (минимальная длина точного совпадения): 7 (минимально возможное значение, которое позволяет установить локальный BLAST – 4, но тогда blastn работает жутко долго).
Использовалась такая команда:
blastn -task blastn -db "../db/spadefoot_toad_genome" -query <путь к файлу> -out <путь к файлу> -evalue 0.05 -outfmt "7 qaccver saccver pident length mismatch gapopen qstart qend sstart send evalue bitscore sstrand" -word_size 7
Полученные файлы:
Для 16S РНК получилось 5 находок, а для 23S РНК – 21.
У эукариот помимо эукариотических рибосом есть митохондриальные, а у растений ещё и пластидные. Вот здесь написано, что гены митохондриальных рРНК находятся в митохондриальном геноме, а в этой сборке нет митохондриальной ДНК. Помимо этого, каждая рРНК закодирована не в единственном экземпляре, чтобы можно было параллельно синтезировать большое их количество.
Чтобы найти аннотацию для найденных участков, я исопльзовала геномный браузер NCBI. Для половины запросов он стабильно говорит, что таких координат не существует, я так и не поняла, почему, зато для другой половины правда есть аннотация SSU_rRNA (small subunit) или LSU_rRNA (large subunit) соответственно. Другой вопрос, что там можно найти аннотацию, например, SSU_rRNA_microsporidia, что странно, но, видимо, это просто издержки автоматической аннотации