На главную

Нуклеотидный бласт

Определение таксономии и функции прочтенной последовательности

При помощи программы consambig пакета EMBOSS из выравниваний данных прямой и обратной хроматограмм был получен консенсус длиной 421 нуклеотид последовательности ДНК выданной мне для выполнения предыдущего практикума. Далее последовательность была загружена в nblast, потому что мы не знаем, белок это или ген чего то ещё (а может и не ген вовсе) и хотим поискать просто похожие нуклеотидные последовательности среди базы данных последовательностей про которые известно что это. Ищем по базе данных Nucleotide collection, так как она содержит в себе объединенные и поэтому наиболее полные данные из разных баз (GenBank+EMBL+DDBJ+PDB+RefSeq) и при этом является неизбыточной, что позволит отобразить больше различных находок в одном сеансе поиска ( а не одну и ту же находку имеющую разные id в разных базах или записанную в одной базе несколько раз).

Функциональная аннотация

Так как большая часть находок (из 100 представленных, кроме одной являющейся последовательностью ДНК некультивируемого организма и взятой из среды, и определенной как 16s RNA), функционально аннотирована как частичная последовательность 18S рибосомальной РНК, не остается никакких сомнений, что это именно она и есть ососбенно с учетом консервативности данной молекулы.(да, некоторые из находок подписаны как рРНК малой субъединицы рибосомы, что для эукариот синонимично 18S rRNA)

Таксономическая аннотация

Так как было принято решение о том что данная последовательность является частичной последовательностью 18S рРНК, про эту последовательность можно предположить, что она довольно консервативна для эукариот, но различается достаточно для того, чтобы использовать ее для создания новой и более естественной биологический систематики. Это предположение позволяет объяснить почему находки рРНК принадлежат организмам группы Lophotrochozoa, выделенной отчасти как раз по уровню схожести рРНК. С учетом того, что первые 9 хороших находок принадлежат организмам родов Loxosoma и Loxosomella, попробуем при помощи выравнивания их последовательностей определить можно ли отнести последовательность к общему для этих родов семейству Loxosomatidae. Были скачаны выровненные с query участки рРНК принадлежащие семейству Loxosomatidae (то же самое отдельно проделано для рода Loxosomella, среди которого из семейства больше всего лучших находок), последовательности были выравнены при помощи Clustal Omega. Таксономия рассматривалась как записанная здесь. Картинка с филогенетическим деревом взята отсюда.

Судя по полученным выравниваниям, несмотря на консервативность 18S РНК и среди семейства Loxosomatidae и среди рода Loxosomella существует достаточно большая вариативность последовательностей. Лучшие находки L.varians и L.murmanica действительно кластеризуются внутри рода в какую то более однородную группу по последовательности. Поэтому я бы назвала свою последовательность неразличимой между видами L.varians и L.murmanica (и принадлежащей к одному из этих видов). (выделены на картинке)

Сравнение работы алгоритмов BLAST

Эксперимент 1. рРНК с хроматограммы

Так как 18S рРНК все же довольно консервативна среди эукариот и довольно хорошо выравнивается с образцами из разных (и даже отдаленных от исходного образца) таксонов, можно попробовать поискать гомологи 18S рРНК у прокариот. Для этого проводились следующие выравнивания со следующими параметрами.

Параметр/эксперимент 1 2 3 4 5 6
Алгоритм megablast blastn blastn blastn blastn blastn
Длина слова 28 11 7 7 7 7
Gapcosts 0, 2.5 5, 2 5, 2 4, 2 5, 2 2, 1
Match/Mismatch scores 1, -2 2, -3 2, -3 2, -3 1, -1 1, -1
Количество находок 6 37 40 48 14893 19997

В данной таблице увеличение номера эксперимента прямо пропорционально увеличению чувствительности. Все эксперименты проводились с ограничением по таксону archaea (taxid:2157), с ограничением на E-value 1e-15. Эксперименты 1 и 2 соответствуют megablast и blastn с параметрами по умолчанию, а далее идет постепенное увеличение чувствительности алгоритма, в эксперименте 3 просто уменьшается длина слова с 11 до 7, эксперимент 4 отличается от эксперимента 3 тем, что там меньше штраф за открытие гэпа, в эксперименте 5 за несовпадение нуклеотидов снимается столько же, сколько дается за совпадение, поэтому можно ожидать большое количество выравниваний с мисматчами (и при этом маленьким числом гэпов, потому что относительно профита от совпадения двух нуклеотидов в конкретной позиции гэп стоит очень дорого), в эксперименте 6 гэпы имеют примерно такую же относительную стоимость (относительно match/mismatch score) как и в парамерах по умолчанию (за совпадение дается в 2 раза меньше очков чем вычитается за открытие гэпа, а за удлиннение гэпа вычитается столько же сколько дается за совпадение, в параметрах по умолчанию за открытие гэпа вычитается в 2,5 раза больше, чем дается за совпадение нуклеотидов, а за удлиннение гэпа вычитается столько же, сколько дается за совпадение)

Выводы по сравнению

Пример 1

Здесь представлено хорошее выравнивание, которое не находит megablast, зато находят все остальные алгоритмы, так как они имеют меньшую длину слова

Пример 2

Выравнивания, которые находит алгоритм 3 (и 4,5,6), но не находит алгоритм 2, так как длина слова у 3 меньше.

В левом столбце находки алгоритма 2, в правом - находки алгоритма 3 (частично), белым цветом окрашены находки, которых нет среди находок алгоритма 2

Пример 3

Выравнивание, которое не находят алгоритмы 1,2,3 так как оно имеет небольшую длину и высокие штрафы за гэпы не позволяют получить оптимальный результат, а снижение штрафов в алгоритме 4 позволяет увидеть его.

Пример 4

Различия в выравнивании одной и той же последовательности алгоритмами 3 и 5. Вверху выравнивание построенное алгоритмом 3, внизу выравнивание построенное алгоритмом 5, в красных рамках различие в выравниваниях, вызванные слишком высокой стоимостью штрафов за гэпы в алгоритме 5. Фиолетовым отмечены хорошие блоки выравниваний построенные алгоритмом 3 и не достигнутые алгоритмом 5. Красная черта-окончание выравнивания построенного алгоритмом 3, видно что алгоритм 5 за счет низкой стоимости мисматчей довольно долго относительно алгоритма 3 продолжает построение выравнивания

Эксперимент 2. некодирующая РНК митохондриального генома

Была выбрана последовательность 26S rRNA из митохондриального генома Ginkgo Biloba с AC KM672373.1. В данном эксперименте я использовала 3 алгоритма аналогичные 1,2 и 6 из предыдущего задания, порог на e-value 0.001 таксон поиска Anthocerotaceae (taxid:13811).

Параметр/эксперимент 1 2 3
Алгоритм megablast blastn blastn
Длина слова 28 11 7
Gapcosts 0, 2.5 5, 2 2, 1
Match/Mismatch scores 1, -2 2, -3 1, -1
Количество последовательностей в которых есть находки 7 9 9
Количество находок 14 23 16

Пример 1

Слияние находок в одну при изменении параметров custom blastn - вариант 3, blastn 11 - вариант 2. Именно этот эффект обеспечивает уменьшение числа находок при переходе от второго к третьему алгоритму. При переходе от первого алгоритма ко второму число находок увеличивается из за новонайденных, но уменьшается из-за частичного слияния тех, что нашлись на предыдущем этапе.

Пример 2

Выравнивания, которых не видит megablast, но видит алгоритм 2 и 3

Поиск гомологов трех белков в неаннотированном геноме Amoeboaphelidium protococcarum

До начала поиска при помощи makeblastdb из кусочков генома Amoeboaphelidium protococcarum была создана нуклеотидная база, необходимая для работы программы. Поиск осуществляется при помощи tblastn с установленным порогом на e-value 0.001 и масимальным размером интрона 200 пар оснований, потому что по умолчанию интроны не разрешены и параметрами gapopen 11 gapextend 1 по умолчанию.

Поиск гомолога рибосомального белка S3

Была скачана последовательность белка RS3_YEAST (S3 белок 40S субъединицы рибосомы, его участие в столь энергозатратном для клетки процессе как трансляция подразумевает его консервативность, так как любые изменения могут значительно снизить эффективность работы трансляционной машины и сделать клетку нежизнеспособной) и запущена tblastn. В выдаче оказалось всего две последовательности (в скэффолдах 287 и 44), которые показывали очень высокую гомологию с белком дрожжей. В получившихся выравниваниях очень мало несовпадающих по свойствам аминокислот, а более 70% и вовсе идентичны. Сходство белков охватывает всю последовательность белка дрожжей (240 ак), что вкупе с хорошим e-value (см картинку)дает полное основание утверждать, что найденные участки генома кодируют гены гомологов рибосомального белка S3. Наличие двух последовательностей в выдаче для такого консервативного белка может являться следствием диплоидности Amoeboaphelidium protococcarum. Ниже представлены изображения выдачи tblastn.

Поиск гомолога серил-тРНК синтетазы

Была скачана последовательность SYSC_YEAST длиной 462 аминокислоты, этот белок специфично присоединяет к сериновым тРНК аминокислоту серин (которая для некоторых тРНК и при определенной структуре матричной РНК привлекает белковую машинерию превращающую серин в селеноцистеин), что так же делает ее важдным элементом, обеспечивающим сохранение генетического кода (сохранение соответствия между аминокислотой и кодонов) и любые вариации которые могли бы привести к изменению функциональности белка могут стать смертельными для клетки. blastn выдала две находки почти на полную длину выровнявшиеся с трансляциями скэффолдов (522 и 521). Выравнивание очень хорошее в начале и конце белковой последовательности, в районе 130-150 аминокислот есть зона где произошли крупные вставки или делеции (области с длинными гэпами), но такие различия вряд ли вносят вклад в изменение функции белка, так как они непротяженные и локальные (и скорее всего произошли на границе двух функциональных доменов не повлияв на доменную организации в целом). Высокий уровень positives и identities и e-value подтверждает мое предположение о том, что несмотря на достаточно большую область, содержащую гэпы белки и те транслированные участки скэффолдов на которые они выровнялись являются полными гомологами.

Поиск гомолога белка рекомбинационной репарации RAD 51

Была скачана последовательность белка RAD51_SCHPO (365 аминокислот) - белка связывающего оцноцепочечную ДНК и участвующего в АТФ-зависимом обмене цепей ДНК при рекомбинации (важен для рекомбинационной репарации, разрешения хромосомных димеров у бактерий (его гомолог RecA) и просто кроссинговера, как механизма обеспечения генетической гетерогенности популяции). При выравнивании при помощи tblastn находятся 4 скэффолда (423, 162, 444, 17), содержащих последовательности, похожие на последовательность RAD51, я расскажу про один из них - 423. В данном скэффолде в трех разных трансляционных рамках были найдены три неперекрывающихся участка искомого белка, покрывающего его с 54 по 355 аминокислоту, то есть его большую часть. Все три найденные части выровнялись очень хорошо, расположены в геноме в том же порядке в котором составляют исходный белок и стыкуются друг с другом без значительных вставок или пропусков участков аминокислотной последовательности (существует небольшое перекрывание 2 и 3 найденных участков (нумерация относительно порядка раположения в белке)) (54-99)~(100-163)~(158-355). Локализация данных кусочков в разных рамках, но при этом расположение в определенном порядке в геноме на небольших расстояниях (50-100 нуклеотидов) позволяет предположить что этодействительно ген, кодирующий гомолог RAD51 и содержащий при этом интроны.

Поиск генов белков в контигах при помощи blastx

Поиск генов осуществлялся при помощи программы blastx, установленной на сервере NCBI. В последовательности unplaced-128 был обнаружен участок, одна из 6 трансляций которого приводит к появлению продукта похожего на H/ACA box (одна из распространенных белковых структур участвующих во взаимодействии с некодирующими РНК) содержащий белок, участвующий вероятнее всего в модификации таких некодирующих РНК как рРНК (sno туда же) путем добавления псевдоуридина в их последовательность. Эти белки так же иногда аннотируют как CBF5 содержащие (centromere binding factor), что является следствием их первичного обнаружения рядом с центромерами хромосом в ядре. Получившиеся выравнивания весьма репрезентативны, имеют около 80% идентичных аминокислот, e-value близкий к 0, и длину, близкую к 400 амиинокислотам. Выравнивания иногда содержат получившиеся при трансляции нуклеотидной последовательности стоп кодоны, но их немного, около 2-3 на выравнивание, что вполне может быть объяснено локализацией таких стоп кодонов в интронах.

Карта локального сходства геномов двух бактерий

Для построения карты локального сходства были выбраны два штамма одного вида Salmonella enterica, но это не помешало получить интересную картинку в итоге, так как такие патогены как эта бактерия часто используют инверсии для смены антигенных детерминант, чтобы скрываться от иммунной системы хозяина (фазовая вариация).

Подобная картина охарактеризовывает как минимум дважды произошедшее в ходе эволюции этих штаммов событие инверсии. Сначала в одном из штаммов инвертировался кусок генома с зелеными концами и содержащий при этом синий кусок, а затем внутри инвертировавшегося зеленого куска инвертировался синий кусок, приняв свою изначальную ориентацию в геноме


© Кристина Перевощикова, 2017