Для исследования последовательности решено было сравнить выдачи megablast и blastn со стандартными параметрами:
Насколько можно видеть, результаты являются близкими к идентичным, изменение параметров бласт в общем меняет выдачу в пределах погрешности, однако замечаем, что в числе лучших находок blastn помимо гена из Alderia modesta содержится также 3 находки из генома Elysia ornata с крайне высокими показателях покрытия при чуть более низкой идентичности.
Результаты выдачи крайне однородны и содержат множество находок с параметрами сходства более 90% при высоком покрытии и E-value равном машинному нулю, из чего делаем вывод, что исходная последовательность является кодирующей для первой субъединицы белка CO (cytochrome oxidase), принадлежащего гастроподе Alderia modesta
Использованный скэффолд: PYGN01004997.1 (35186) организма Blattella germanica
Было решено использовать алгоритм blastx (так как мы ищем протеины в неаннотированной последовательности) и поиск только по Swiss-Prot, чтобы лимитировать выдачу и иметь к результатам большее доверие.
Изменение параметров blastx почти не меняет результат
В скэффолде нашлись 4 белка с удовлетворительными показателями процентной идентичности:
Hand calcium-binding domain-containing protein 1 Q9HAE3.1
A-type potassium channel modulatory protein 3 Q17QD9.1
Kv channel-interacting protein 4 Q2KI69.1
Kv channel-interacting protein 2 Q9JM59.2
Исходя из параметров процентной идентичности и покрытия сделаем предположение, что данный кодирующий участок в скэффолде принадлежит гомологу белка Hand calcium-binding domain-containing protein 1
Для сравнения были выбраны типовые штаммы 2 основных видов бактерий из рода Salmonella: Salmonella enterica и Salmonella bongori
Геномы представляют из себя 1 кольцевую хромосому, длинной около 4 700 килобаз.
Диаграмма является незначительно шумной, однако основной паттерн легко прослеживается. По графику Dot-Plot можно ясно видеть счетное число инверсий и смещений. 2 последовательные инверсии можно набллюдать на участке от 250К до 2700К: мы видим что в процессе эволюции данный участок был инвертирован, однако в результате второй инверсии участок 1200К-1750К восстановил свою ориентацию. На участке 4350К-4500К виден индель - в одной из хромосом отсутствует участок, присутствующий в другой. Также можно наблюдать результат транслокации на участке 3400К-3800К - даже если инвертировать этот участок, он не совпадет с предполагаемым паттерном последовательности. Также мы можем наблюдать глобальное смещение генома на ~500К нуклеотидных пар - участок 4250К-4750К перовой последовательности соответствует первым 500К нуклеотидов второй, это возможно из за кольцевой структуры хромосомы.