На рассмотрение я взял последовательность с идентификатором NW_024401028.1. Длина контига — 9656 пар оснований. Контиг содержит всего один ген, состоящий из 6 CDS.
Схема 1 (живая). Расположение последовательностей на контиге.
Последовательность контига Последовательность гена Экзоны мРНК CDS белка
Судя по имеющимся данным из схемы 1, в контиге имеется 1 ген, кодирующий белок вкусового рецептора. С гена считывается мРНК из 6 экзонов, каждый из которых представляет собой CDS.
Ссылка на файл с последовательностью.
Поиск в blastn дал очень неоднородные результаты: при исключении таксона Chordata количество результатов составило 1 — небольшой участок из хромосомы насекомого Dryobotodes eremita; исключение таксона Amphibia позволило получить 1139 результатов из различных классов животных. Большинство из них представляют собой так же белки вкусовых рецепторов. Все выравнивания построены преимущественно на пяти участках последовательности-запроса, которые совпадают с местами расположения экзонов на ней (см. рис. 1). Можно сделать вывод о том, что в гене наиболее консервативны последовательности экзонов, причём консервативны они у всех хордовых.
Рис. 1. Графическое выравнивание запроса в blastn (фрагмент)
Поиск через megablast выдал очень мало результатов: при исключении Anura осталось лишь 5 находок вкусовых рецепторов у червяги Geotrypetes seraphini, которые не очень хорошо выравниваются с запросом.
blastx при исключении Chordata выдал 2070 находок из различных классов беспозвоночных и даже грибов. Большинство находок относятся либо к "extracellular calcium-sensing receptor", либо к "metabotropic glutamate receptor". Выравнивания построены по двум участкам (5200—5400, 8500—9100). Помимо графического выравнивания в выдаче содержится схема доменов (см. рис. 2), положение которых так же в основном совпадает с положением экзонов.
Рис. 2. Схема доменов
Поиск по tblastx выдал ошибку, сославшись на нехватку вычислительных мощностей, и результатов получено не было.
При поиске были использованы стандартные параметры и стандартные длины слов (blastn 11, megablast 28, blastx 6).
megablast используется для поиска последовательностей с высокой степенью сходства, обычно у близкородственных видов. blastn позволяет находить гомологи генов, не кодирующих белки. blastx может быть использован для поиска гомологов белка, для которого известен его ген. tblastx может находить гомологи среди неаннотированных белковых последовательностей.
Установив локальный BLAST, я выполнил в командной строке следующую команду:
makeblastdb -in GCF_905171765.1_aBufBuf1.1_genomic.fna -dbtype nucl
Затем я провёл локальный поиск для последовательностей рРНК с помощью команд:
blastn -task blastn -query 16s.txt -db GCF_905171765.1_aBufBuf1.1_genomic.fna -out 16s.out -outfmt 7
blastn -task blastn -query 23s.txt -db GCF_905171765.1_aBufBuf1.1_genomic.fna -out 23s.out -outfmt 7
Для работы были выданы последовательности 16S и 23S рРНК E. coli. Для поиска гомологов я использовал алгоритм blastn, т.к. заданные последовательности нуклеотидные и не кодируют белки. Параметры использованы стандартные.
Для обеих последовательностей были найдены гомологи на аннотированных участках генома B. bufo. Для 16S рРНК найден 1 гомолог (18S). Для 23S рРНК найдено 12 гомологов, из которых 2 являются 5.8S рРНК, и 10 — 28S рРНК. Гомология подтверждается тем, что 16S рРНК прокариот и 18S эукариот образуют малую субъединицу рибосомы, а 23S прокариот и 5.8S и 28S эукариот — большую субъединицу.