В качестве определяемой последовательности использовался консенсус, определённый при расшифровке хроматограммы (consensus.fasta).
Первичный общий BLAST был запущен со следующими параметрами:
Алгоритм | blastn, megablast |
---|---|
База | nr/nt |
Организм | exclude: Brookesia brygooi |
Expect threshold | 1 |
Word size | 28 |
Такая база была выбрана, потому что среди RefSeq не находилось ничего подходящего. Ограничение на организм (исключён карликовый хамелеон Brookesia brygooi) пришлось поставить, поскольку сайт не позволял не указывать организм - а ведь именно определение таксономической принадлежности было основной целью данного задания. Вероятность, что искомая последовательность будет принадлежать этому случайно выбранному виду исчезающе мала. Остальные параметры выставлены так, чтобы находились достаточно близкие последовательности.
Полная выдача BLAST доступна по ссылке.
В результате нашлось стопроцентное совпадение (за исключением концов, возможно, не относящихся к самой последовательности - например, это могли остаться какие-нибудь добавленные при выделении фрагмента адаптеры) с последовательностью первой субъединицы цитохром-оксидазы кольчатого червя Polycirrus medusa. Повторный BLAST с ограничением по таксону (семейство Terebellidae) и минимальной длиной слова (чтобы точно не пропустить последовательности) показал (см. выдачу), что у всех других видов, даже того же рода, совпадение уже не стопроцнтное, поэтому можно утверждать, что обсуждаемый ген взят именно из Polycirrus medusa.
В качестве последовательности использовался 24 контиг первого скэффолда лучшей сборки генома трихоплакса (AC ABGP01000024.1).
Алгоритм | blastx |
---|---|
База | RefSeq |
Организм | exclude: Trichoplax |
Expect threshold | 1 |
Word size | 3 |
Алгоритм blastx использовался потому, что нам нужно найти для последовательности ДНК белки, белки похожие на возможные продукты по аминокислотной последовательности (ведь именно от них зависит функция). Они могут оказаться у далёкого организма, и тогда сама последовательность гена будет сильно отличаться. RefSeq в качестве базы использовалась потому, что там будут уже аннотированные белки с известной функцией, а не просто гипотетические, полученные как транскрипты найденных открытых рамок считывания. Малый размер слова был выставлен, чтобы точно не пропустить возможный белок.
Полная выдача BLAST доступна по ссылке. Графическое её представление (обрезанное) приведено на изображении ниже:
Участок в конце выравнивается с различными MFS-транспортёрами (полностью розовые полоски) из разных организмов и с гликопротеинами синаптических везикул (розово-залёные полоски, т.е. в конце соответствие хуже - возможно, просто имеет тот же домен). MSF-транспортер попал в выравнивание почти целиком: 394 ак из 442.
Так что вероятно, этот участок является геном, кодирующим транспортный белок из суперсемейства MFS (Major facilitator superfamily). Эти белки участвуют в перемещении малых молекул через мембрану в ответ на хемоосмотический градиент.
Для сравнения были выбраны репрезентативные геномы Lactobacillus crispatus ST1 (AC NC_014106.1) и Lactobacillus jensenii strain SNUV360 (AC NZ_CP018809.1).
Основные изменения, которые можно видеть на этой карте - инверсии и транслокации с инверсией. Так, инвертированы друг относительно друга участки 1900k-100k L. crispatus - 0-250k L. jensenii, 1250k-1350k L. crispatus - 700k-800k L. jensenii и другие, которые видны как линии, перпендикулярные основной диагонали.
Присутствуют делеции/инсерции, например, участок около 780k-820k L. crispatus не имеет соответствия у L. jensenii, при том, что окружение гомологично (хотя на этом участке раполагается псевдоген с внутренним стоп-кодоном, похожий на вирусную транспозазу, окружение не похоже на то, чтобы это был вставившийся ретротранспозон (и даже для него это 40 тыс. пар оснований слишком много - но следует учитывать, что определение координат по этой схеме имеет погрешность порядка пяти тысяч пар оснований), так что это всё же скорее делеция, чем вставка).
Также не имеют соответствия большие участки 1380k-1450k L. crispatus и 1050k-1150k L. jensenii. Это могут быть делеции, а может, просто все последовательности слишком далеко разошлись друг от друга чтобы ловиться бластом с жёсткими параметрами, которые необходимы, чтобы избежать большого количесва мусора.