Нуклеотидный BLAST

Определение функции и таксономии нуклеотидной последовательности

Для определения функции нуклеотидной последовательности полученной при расшифровки хроматограммы в практикуме 6, и для нахождения таксономического положения организма, геному которого она принадлежала, я использовал blastn, так как мы не знаем кодирует ли эта последовательность какой-нибудь белок. Для поиска был выбран алгоритм megablast со стандартными параметрами, чтобы сразу найти близкие гомологи. С выдачей можно ознакомиться по ссылке. Все 100 находок указывают на то, что данная нуклеотидная последовательность скорее всего кодирует субъединицу I цитохром с-оксидазу (COI). Первые 13 лучших находок (имеющих процент идентичности >90%) принадлежат Polycirrus, что говорит нам о том, что моя последовательность вероятнее всего принадлежит данном роду. Данная последовательность наиболее близка к последовательностям Polycirrus medusa и нескольких неклассифицированных организмов. Для более точного определения вида изучаемая последовательность была выравнена с помощью алгоритма muscle в JalView на последовательности находок. Скачать выравнивание можно по ссылке. Множественное выравнивание привело меня к выводу о том, что скорее всего исследуемая последовательность принадлежит Polycirrus medusa. Особенно это заметно на участке на рис.1. На позициях 261, 268, 273, 297 нуклеотиды исследуемой последовательности совпадают с нуклеотидами только Polycirrus medusa, отсюда можно сделать вывод о том, что последовательность скорее всего была получена из генома Polycirrus medusa.

Кекс
Рис.1 Множественное выравнивание

Поиск генов белков в неаннотированной нуклеотидной последовательности

Для нахождения гена был выбран контиг (ссылка на NCBI) длиною 21,763 нуклеотидов серого волка Canis lupus. Файл с последовательностью контига доступен по ссылке. Так как надо найти белок по нуклеотидной последовательности, был использован алгоритм blastx. Белок искался по базе RefSeq, настройки были выставлены по умолчанию кроме word-size – 6, а также из поиска был исключен поиск по белкам Canis lupus. С результатами выдачи можно ознакомиться по ссылке. Как видно из выдачи, контиг скорее всего содержит ген кодирующий белок WD repeat-containing protein 37, так как процент индентичности в обоих случаях выше 85 процентов, а значение e-value очень маленькое.

Интепретация карты локального сходства гомологичных хромосом бактерий

Для данного задания была выбрана пара бактерий, относящихся к одному роду: Campylobacter coli и Campylobacter jejuni. Сборки полных геномов (хромосомы и плазмиды) были найдены на NCBI Genome, но для построения карты локального сходства были взяты последовательности хромосом (NZ_CP046317 и NZ_LN831025). Для того что бы получить карту локального сходства был использован blastn с алгоритмом megablast с параметрами по умолчанию (рис.2) Как видно из карты локального сходства (рис. 2ß) обе хромосомы сильно похожи, на это указывают и показатели идентичности (85,78) и покрытия (83%), которые выдал мне blastn. Тем не менее на карте видны крупные хромосомные перестройки:

  1. В одной из хромосом скорее всего произошла инверсия участка, данная перестройка отмечена розовым цветом, затем произошла повторная инверсия внутри данного участка и ориентация восстановилась(желтый цвет).
  2. Зеленым цветом отмечены участки в которых произошла скорее всего транслокация
  3. Синим выделены участки, в которых произошла инверсия
  4. Красным обозначен участок в котором скорее всего произошла либо инсерция либо делеция Хочется также отметить, что разрыв прямых вероятнее всего обусловлен темб что последовательности были записаны с разных мест.
Кекс
Рис.2. Карта локального сходства