Поиск по сходству (нуклеотидный blast)

Упражнение 1. Определение таксономии нуклеотидной последовательности

Для начала с помощью программы consambig была получена консенсусная последовательность из выравнивания прямой и обратной последовательностей. BlastN этой последовательности выдал 100 совпадений. Для определения аннотации взяты 2 лучших совпадения с Ident 88% организма Loxosomella varians и 84% Loxosomella harmeri. Хотя Ident следующих по выдаче организмов отличается всего на один процент, я решила взять выравнивания с максимальным E-value. Данные записи соответствуют митохондриальному гену рода Loxosomella cytochrome oxidase subunit I. Ниже приведен скрин выдачи BlastN.

Выдача BlastN
Рисунок 1. Выдача BlastN

Далее приведено лучшее выравнивание BLAST. Можно заметить, что из 73-х невыравненных нуклеотидов только 14 вызваны заменами C → T или T → C, а все остальные вызваны неопределенностью нуклеотида в прочтении хроматограммы.

Первое выравнивание
Рисунок 2. Первое выравнивание

Можно сказать, что нуклеотидная последовательность относится к гену, кодирующему субъединицу I цитохромоксидазы у организма рода Loxosomella, относящегося к семейству Loxosomatidae типа Entoprocta.

Упражнение 2. Сравнение разных вариантов blast

Пункт 1.

При сравнении megablast, blastn default и blastn sensitive поиск был ограничен по семейству Loxosomatidae, так как без ограничения выдача blast была неинформативна и количество находок было очень большим.

Алгоритм Параметры алгоритма Число находок Комментарии
megablast Стандартные; длина слова = 28;
M/M Score 1,-2;
5 Последняя находка с E-value = 6e-123; первая = 0.0; поиск ограничен семейством; минимальный Ident = 81%;
blastn default Стандартные; длина слова = 11;
M/M Score 2,-3;
25 Поиск ограничен семейством; последняя находка на странице с Е-value = e-75; минимальный Ident = 72%;
blastn sensitive Длина слова = 7; M/M Score 1,-4; 26 Поиск ограничен семейством; последняя находка на странице с Е-value = e-9; минимальный Ident = 82%;
Таблица 1. Описание алгоритмов

Ниже представлена выдача и поиск гомологов в blast.

BlastN default



default
default


Megablast



default


BlastN sensitive



default
default


На основании этих данных можно сделать вывод, что blastn sensitive хорошо подходит для точного выравнивания высококонсервативных участков ДНК, а не целых генов. Если нужно сделать поиск близкородственных организмов с высоким Ident, нужно использовать Megablast, хотя он пропускает короткие участки из-за word size = 28, с которыми хорошо получается работать у blastn, и, естественно, количество находок у Megablast наименьшее. Также понятно, что результаты Megablast успешно находятся другими типами запусков. Можно добавить, что наиболее низкие значения Е-value наблюдаются при использовании алгоритма ВlastN с параметрами, отличными от стандартных - уменьшение длины слова до 7 и изменение значений параметра Match/Mismatch Score до более чувствительных, а вот наибольшие значения Е-value, с небольшой разницей с megablast, показывает BlastN со стандартными параметрами. Megablast показал себя хуже, чем blastn: он упустил важные последовательности, например, Loxosomella harmeri cytochrome oxidase subunit 1 gene, partial cds; mitochondrial.

Пункт 2.

Я провела те же самые запуски только не некодирующей тРНК 1714..1767 из прошлого практикума с ограничением по роду Brugia из-за большого количества находок. Ниже представлены результаты.

BlastN default



default


Megablast



default


BlastN sensitive



default


Можно заметить, что значимые находки BlastN default и BlastN sensitive совпадают - остальные находки обладают E-value больше нуля. Megablast, как и предполагалось, выдал одну, но максимально соответствующую последовательность, которая также нашлась в поисках по BlastN. Таким образом, Megablast хорош для быстрого поиска длинной идентичной последовательности, но он не так хорош для поиска гомологии, как blastn. Для поиска более близких гомологий можно повышать его чувствительность манипуляциями различных параметров.

Упражнение 3. Гомологи белков в неаннотированном геноме

Задание выполнено для трех белков: HSP71_YEAST, TERT_SCHPO и PRPC_EMENI, с использованием BLAST+. Сначала была создана локальная база данных:
makeblastdb -in X5.fasta -dbtype nucl
Так как последовательности белковые, то используется tblastn.
Запрос для HSP71_YEAST:
tblastn -query hsp71.fasta -db X5.fasta > hsp71.out
Вывод:

hsp71

HSP71_YEAST кодирует Heat shock protein SSA1 у пекарских дрожжей Saccharomyces cerevisiae (strain ATCC 204508 / S288c). Белок выполняет функцию транспорта полипептидов через митохондриальную мембрану и в эндоплазматический ретикулюм. SSA1 может участвовать в ATP-зависимой разборке в везикулах, покрытых клатрином.
Выравнивание со scaffold-199 имеет E-value = 0.0 и высокий вес (920). Поэтому, эти две последовательности гомологичны и, видимо, выполняют одну и ту же функцию.
Аналогичный бласт сделан для TERT_SCHPO и PRPC_EMENI. Ниже можно увидеть сводную таблицу:

TERT_SCHPO PRPC_EMENI
Кодируемый белок trt1 mcsA
Функция Теломераза представляет собой рибонуклеопротеиновый фермент, необходимый для репликации хромосомных концов у большинства эукариот. Он удлиняет теломеры. Это обратная транскриптаза, которая добавляет простые повторения последовательности к концам хромосом путем копирования последовательности шаблонов в РНК-компоненте фермента. Митохондриальный ген. Катализирует синтез (2S, 3S) -2-метилцитрата из пропионил-СоА и оксалоацетата, а также из ацетил-СоА и оксалоацетата с большей эффективностью. Также имеет активность цитратсинтазы и может заменить недостаток активности citА.
Лучшее совпадение scaffold-17, Score: 108, E-value: 1e-23 scaffold-693, Score: 393, E-value: 6e-121
Результат Есть короткие идентичные участки без гэпов. Чистой гомологии нет, тем более, что низкий Identity (25%) и Positives (47%). Находка условно положительная. E-value достаточно низкий, чтобы утверждать гомологию двух белков, но вес недостаточно большой, чтобы однозначно утверждать об одинаковой функции. Есть реально гомологичные участки длинной около 25 а.о.
Таблица 2. Гомология TERT_SCHPO и PRPC_EMENI

Упражнение 4. Ген белка в одном из контигов

Поиск проводился с помощью blastx по базе данных Reference proteins, ограничив поиск таксоном Fungi. В контиге unplaced-20 длиной 31518 пар оснований был найден ген, кодирующий сериновую пальмитоилтрансферазу с E-value = 5e-142.

fungi
Рисунок 3. Результаты blastx
Данный фермент из семейства ацилтрансфераз, катализирует реакцию переноса ацильной группы на молекулу субстрата — серина, по уравнению:
пальмитоил-CoA + серин ⇔ CoA-SH + 3-дегидро-D-сфинганин + CO2.

Упражнение 5. Карта локального сходства

Для выравнивания я взялa геномы из RefSeq двух бактерий: Brucella melitensis и Brucella ovis (NC_003318.1 и NC_009504.1 соответсвенно), и выравняла их с помощью Multiple Sequence Alignment blastn. Перестройки генома прокариот можно увидеть ниже; идентичные участки помечены одной буквой.

dot
Рисунок 4. Dot matrix view

Комментарии: в левой части карты можем увидеть, что либо у Brucella ovis произошла вставка в геном, либо у Brucella melitensis произошла делеция. Также, можем увидеть крупные гомологичные участки. Расположение куска генома А обсуловлено тем, что что бактерии имеют одну кольцевую молекулу ДНК. Данный участок при развертывании и прочтении просто оказался для одной бактерии в начале генома, а для другой в конце.
© Бруман Софья, 2018