Определение функции и таксономии нуклеотидной последовательности
Для определения таксономической принадлежности и функции последовательности был использован blastn (так как о последовательности практически ничего не известно). Ссылка на выдачу программы.
Параметры запуска: database: nt/nt, max target sequences: 100, expect threshold: 0.05, word size: 11
Таксономия: судя по самому высокому Identity (93.62%) последовательность принадлежит моллюску Paracoryphella islandica (рис. 1).
Отряд
Nudibranchia (голожаберные моллюски)
Подотряд
Cladobranchia (101 находка)
Надсемейство
Flabellinoidea (96 находок)
Семейство
Paracoryphellidae (20 находок)
Функция: скорее всего данная последовательность принадлежит гену субъединицы I цитохром оксидазы С (COI).
Поиск генов белков в неаннотированной нуклеотидной последовательности
Для работы был выбран контиг из сборки генома Sarcophilus harrisii.
Был использован blastx, так как гомология с другими белками будет лучше продемонстрирована, если транслировать данный контиг в пептид. Параметры поиска: database: swissprot, organism: exclude Sarcophilus harrisii (taxid:9305), expect threshold: 0.01, word size: 6. Выдача BLAST
В выдаче 100 последовательностей, 98 из которых принадлежат субъединице I цитохром-С-оксидазы, еще 2 - NADH-убихинон оксидоредуктазе (5 цепи). Первые пять лучших находок (субъединица I цитохром-С-оксидазы) принадлежат организмам Didelphis virginiana (виргинский опоссум), Osphranter robustus (горный кенгуру), Phoca vitulina (обыкновенный тюлень), Canis lupus (серый волк), Bos taurus (домашний бык). Находки по NADH-убихинон оксидоредуктазе принадлежат Osphranter robustus (горный кенгуру), Didelphis virginiana (виргинский опоссум).
Первые 10 находок имеют довольно высокий Identity (87-90%), низкие E-value. Покрытие в случае субъединицы I цитохром-С-оксидазы составляет 9%, NADH-убихинон оксидоредуктазы (5 цепи) - 10%.
Стоит отметить, что находки по NADH-убихинон оксидоредуктазе (5 цепи) стоят далеко не в начале ранжированного списка находок. Identity двух находок равны 74.48% и 68.25%. Судя по тому, что 98/100 находок принадлежат субъединице I цитохром-С-оксидазы (в том числе лучшие находки), возможно, это и есть функция гена из последовательности контига. К тому же, цитохром-С-оксидаза является довольно консервативным белком ввиду своей важной функции, поэтому можно предположить наличие гомологии несмотря на то, что в контиг попала только последовательность, кодирующая одну субъединицу.
Интепретация карты локального сходства гомологичных хромосом двух бактерий
Для работы были выбраны сборки геномов Mycobacterium tuberculosis H37Rv (AL123456) и Mycobacterium avium subsp. avium strain DSM 44156 (CP046507).
Выравнивание производилось с помощью blastn -> suite-2sequences -> megablast (параметры: wordsize = 28, expect threshold = 0.05).
На участке 0-1М произошла транслокация, затем инверсия участка 500-1М. Внутри участка 500-1М, судя по всему, было от 2 до 3 событий транслокации. На участке 2М-2,250К видна транслокация с дупликацией. На участке 2,950К-4,800К была транслокация, на 3,800К-4,100К второе событие транслокации (участок вернулся "на место"), в то время как оставшиеся транслоцированные фрагменты 2,950К-3,800К и 4,100К-4,800К претерпели инверсию.
На dotplot'е также видны несколько делеций/инсерций: 3,550K-3,700K; 2,600K-2,700K; 1,800K-1,900K; 1,500K-1,600K; 1,250K-1,300K
Можно сделать вывод, что виды относительно далеко разошлись друг от друга.