Цель заданий: Попробовать разные алгоритмы поиска BLAST через веб-интерфейс и локально.

Задание 1. Разные варианты BLAST для короткого контига

В этом задании алгоритмы поиска BLAST будут использоваться через веб-интерфейс.

Выбрал участок контига, на котором расположен ген ацетилхолинэстеразы. Для этого посмотрел название гена, кодирующего фермент, потом в NCBI по названию нашел положение в геноме — Chromosome 7, NC_000007.14 (100889994..100896994). По положению определил контиг NC_000007.14. Длина участка 7001 нт.

Схема участка контига
Pic 1. Схема участка контига NC_000007.14 с координатами 100889994..100896994. Фиолетовые линии — мРНК, красные — CDS. Рассматриваемый фрагмент содержит 5 CDS.

Последовательность в fasta формате можно скачать здесь. Поиск производился по таксону cellular organisms (taxid:131567), чтобы убрать искусственные генетические конструкции из выдачи, а таксон Chordata (taxid:7711) был исключен, потому что среди них ген АХЭ схож с нашим человеческим, а вот у остальных групп есть вариации, например, как следствие дупликации, экспрессия двух генов ацетилхолинэстеразы у гексапод и до четырех у нематод[1].

  • blastn — параметр Word size: 11, максимальный размер выдачи 5000, остальные параметры по умолчанию, получилось 2826 находок, наибольший Max score: 233 с геном Ixodes scapularis, выровнялся участок длиной 428нт (интервал 3450-3872 во фрагменте) в открытой рамке считывания (рамки считывания определены в Graphics на странице сборки 7 хромосомы человека). Среди находок были и другие представители гексапод (Bombyx mori), простейшие (Naegleria), бактерий (Bacillus, Plasmodium) и даже растение – дыня (Cucumis melo), почти все из них выравнивались на некодирующие участки. Алгоритм blastn можно применять как раз для поиска гомологичных последовательностей, которые не являются белок-кодирующими или не аннотированны, среди в том числе далеких видов.
  • megablast — параметр Word size: 28, максимальный размер выдачи 1000, остальные параметры по умолчанию, получилось всего 16 находок с таксономически далекими друг от друга организмами, наибольший Max score: 63.9, выравнивались участки длиной около 30-35, несколько случаев 60-70, при этом почти все выравнивания начинались с 3836нт, который находиться примерно посередине CDS, вероятно, это какой-то генетический элемент который может встречаться у разных организмов и его последовательность консервативна (например, промотор?). Алгоритм megablast используется для поиска почти идентичных последовательностей близкородственных видов, такое малое количество находок тому соответствует.
  • blastx — параметр Word size: 6, максимальный размер выдачи 5000, Expect treshold: 0.0001, исключил таксономическую группу побольше – Deuterostomia (taxid:33511), остальные параметры по умолчанию, получилось больше 5000 находок, почти все попадали в CDS. Алгоритм blastx наиболее удобен для поиска гомологов белок-кодирующих генов эукариотического организма, поскольку поиск идёт по белковой базе данных
  • tblastx — запустить tblastx на сайте NCBI не удалось даже с минимальными настройками. Алгоритм tblastx применяют для поиска таких гомологичных последовательностей, которые не были аннотированы как гены белков
  • Задание 2. Поиск в геноме эукариот генов основных рибосомальных РНК по далекому гомологу

    В этом задании алгоритмы поиска BLAST будут использоваться локально.

    Индексирование последовательности генома для работы локального BLAST

    makeblastdb -in GCF_000001405.40_rna.fna -dbtype nucl

    Поиск будет проводиться в небольшом банке данных среди весьма далеких гомологов, поэтому решено использовать blastn, значение e-valuу по умолчанию.

    Файл с последовательностями рРНК Escherichia coli был разделен на файлы 16S.fasta и 23S.fasta, поиск по геному человека был проведен с помощью следующих команд:

    blastn -task blastn -query 16S.fasta -db GCF_000001405.40_rna.fna -evalue 0.05 blastn -task blastn -query 23S.fasta -db GCF_000001405.40_rna.fna -evalue 0.05

    По запросу 16S рРНК было найдено 11 находок, среди них 18S рРНК, что подтверждает их гомологию, и 45S пре-рибосомальная РНК, предшественник 18S, весьма ожидаемый результат. 18S рРНК является структурной РНК малой субъединицы цитоплазматических рибосом эукариот. 45S пре-рибосомальная РНК после прохождения серии расщеплений формирует зрелую рРНК 18S, 5,8 S и 28S

    По запросу 23S рРНК было найдено 10 находок, среди них 28S рРНК и 45S пре-рибосомальная РНК.

    Каких-либо находок среди митохондриальных РНК не наблюдалось, видимо, они просто не входили в геномную сборку человека (по крайней мере в её РНК-часть)

    Список литературы

    [1] L. Pezzementi, A. Chatonnet, Evolution of cholinesterases in the animal kingdom, Chem. Biol. Interact. 187 (2010) 27–33.