Практикум 8. Нуклеотидный BLAST

Определение функции и таксономии нуклеотидной последовательности

Просмотреть псоледовательность из хроматограммы можно по ссылке.

Для поиска требуется повышенная точность, кроме того, даже прибилизительно неизвестно, на что похожа последовательность. Поэтому был выбран наиболее точный вариант нуклеотидного BLAST - BLASTn. По этой же причичине была выбрана наиболее крупная база данных nr/nt и самый минимальный размер индексируемого слова - 7 символов. Порог E-value был немного увеличен до 0.1, чтобы получить больше результатов, а количество выдаваемых записей на странице до тысячи. Остальные параметры были оставлены без изменений.

Текстовая выдача BLAST находится по ссылке. Встроенная таксономия NCBI по многим показателям определяет видовую принадлежность (совпадений было много, не мелее тысячи записей, но тысячи достаточно для определения таксона): эти результаты все имеют E-value, достаточно низкий для того, чтобы считать его равным нулю, они имеют максимальный вес, и среди них присутствуют две записи с максимальным процентом идентичности 100 процента при покрытии в 92 процента. Скриншот с решением NCBI представлен ниже.

Определение таксономической принадлежности по NCBI
Рисунок 1. Определение таксономической принадлежности по NCBI.

В итоге, последовательность, вероятно, является митохондриальным CDS из кольчатого червя Polycirrus medusa.

Поиск генов белков в неаннотированной нуклеотидной последовательности

Для выявления функции белка был взят контиг длины 12368 нуклеотидов из желтоперого тунца Thunnus albacares. Просмотреть его можно по ссылке.

Так как по нуклеотдной последоваетльности нужно найти белок, была использована разновидность BLASTx. Запуск производился по базе данных Swiss-Prot, потому что в non-redundant превышался процессорный лимит, и требовалась база данных поменьше, возможно, с более точной аннотацией. По этой же причиние размер индексируемого слова был оставлен без изменений на максимуме - 6. Но чтобы получить больше результатов ,порог E-value был поднят до 1. Количество записей на странице было установлено на 1000, но в итоге их оказалось 11. Чтобы избежать тривиального ответа в поиске не рассматривался сам желтоперый тунец. Остальные параметры по-умолчанию.

Итоговая выдача содержала 11 записей, 9 из которых соответствовали ДНК нуклеотидилекзотрансферазам из различных организмов, в том числе относительно родственных тунцу, например, радужной форели (Oncorhynchus mykiss). Последняя запись даже относилась к человеку (Homo sapiens). С учетом того, что данный ген у человека занимает менее 1500 нуклеотидов, а в исходном конфиге тунца более 12000, вероятно, ген попал с "примесями" других. Отсюда маленький процент покрытия (примерно 1-2). Функция ДНК нуклетидилэкзотрансферазы - в добавление дезоксирибонуклеозида-5'-трифосфата к ДНК. Исходя из возможной гомологии (E-value min = 2*10^(-14)) можно предположить, что этоу функцию и выполняет кодируемый данным контигом белок.

Аксолотль, один из видов в выдаче BLASTx во время поиска гомологичных белков
Рисунок 2. Аксолотль, один из видов в выдаче BLASTx во время поиска гомологичных белков

Интепретация карты локального сходства гомологичных хромосом двух бактерий

Для сравнения были рассмотрены бактерии из рода Chlamydia. Их геномы обычно состоят из одной хромосомы и невелики по размерам. Для построения карты были отобраны хромосомы видов muridarum и pneumoniae. Так как последовательности были взяты из близкородственных организмов, использвался tBLASTx вариант с дефолтными параметрами. В итоге была получена карта локального сходства.

Карта локального сходства хромосом из бакетрий вида <iChlamydia></i
Рисунок 3. Карта локального сходства хромосом из бакетрий рода Chlamydia

К сожалению, карта содержит множество помех, но можно отчетливо выделить два гомологичных участка (все измерения по muridarum, т.е. по горизонтали): примерено между 80 и 300 тысяч первый и 790 и 890 второй. На втором гомологичном участке заметны индели, например, 860-880 тысячи нуклеотидов. Гомологичные области не представляют собой диагонали, но так как они сдвинуты, возможно, запись последовательности началась не с ориджина, и участки можно объединить. Между 310-320 тысяч есть участок низкой сложности (нуклеотиды одного типа). Кроме того, имеется некоторое количество перпендикулярных комлементарных цепей, и с их учетом вырисовывается фигура, напоминающая параллелограмм. Таким образом, в среднем бактерии действительно родственны.