Нуклеотидный blast

Вернуться на страницу семестра

Нуклеотидные банки данных

1. Определение таксономии и функции прочтенной нуклеотидной последовательности

Произведён поиск по нуклеотидному blast
Ссылка на секвенированную последовательность (прямая цепь)
Ссылка на секвенированную последовательность (обратная цепь)

Рис.1. Результат поиска blast (прямая цепь). Лучшие находки


Рис.2. Результат поиска blast (обратная). Лучшие находки


Рис.3. Лучшее выравнивание прямой цепи с Brada inhabilis voucher WS1017 histone H3 gene


Рис.4. Лучшее выравнивание обратной цепи с Brada inhabilis voucher WS1017 histone H3 gene



В поиске и по прямой, и по обратной цепи лучшая находка - выравнивание с Brada inhabilis voucher WS1017 histone H3 gene, partial cds. AC KJ530683. Причем все несовпавшие позиции это N (любой нуклеотид), которые выдал секвенатор. Процент покрытия больше 90%, а E-value очень мало. Поэтому мы считает, что находка это AC KJ530683, частичная кодирующая последовательность гена гистона H3 Brada inhabilis voucher WS1017
Таксономия
Brada inhabilis
            Eukaryota; Metazoa; Lophotrochozoa; Annelida; Polychaeta; Palpata;
            Canalipalpata; Flabelligerida; Flabelligeridae; Brada.

Рис.5. Brada



Описание вида:
Тело короткое и толстое, U-образное, без глаз. Эпидермис густо покрыт круглыми сосочками, усыпанными мелким песком. Размер до 60 мм для 26 сегментов. Обитает на песке, грязи, гравии, смешанных кустах, между камнями. [1]

2. Сравнение списков находок нуклеотидной последовательности 3-я разными алгоритмами blast

Банк nr/nt, поиск в таксоне Mollusca, кроме Gastropoda, порог E-value 1.0E-100 ZEZWZ840015 megablast: длина слова 28 megablast: число находок 21

Рис.5. Находки megablast


ZF10YEC0014 discontiguous megablas: длина слова 11 megablast: число находок 125

Рис.6 Находки discontiguous megablast


Рис.7 Находки blastn



Находок в двух последних алгоритмах заметно больше, например, Laevipilina hyalina histone H3 gene, partial cds. Если говорить о верхних позициях, то в megablast не был найден Crassinella lunulata voucher MCZ 379774 histone H3 gene, partial cds
Megablast отвечает за поиск очень похожих последовательностей, длина слова в поиске была 28 (более чем в 2 раза длиннее, чем у Discontigous megablast и BlastN). Как раз из-за длины слова находки Crassinella lunulata voucher MCZ 379774 histone H3 gene, partial cds нет в megablast. Также можно увидеть, что расчёт E-value отличается в алгоритмах. Я поставила ограничение на него: менее 1.0E-100, в Megablast E-value увеличивался с какждой находкой быстрее, поэтому и отсеялось больше находок, чем в других алгоритмах. Это объясняет отсутствие Laevipilina hyalina histone H3 gene, partial cds в выводе megablast

3. Проверка наличия гомологов трех белков в геноме одного организмов

Организм X5 (Amoeboaphelidium protococcarum)
Я взяла белки:
HSP71_YEAST - шаперон HSP70, белок теплового шока;
TBB_NEUCR - тубулин, белок, участвующий в образовании микротрубочек
PRPC_EMENI - митохондриальная цитратсинтаза

Проверка HSP71_YEAST
Проверка TBB_NEUCR
Проверка PRPC_EMENI

Таблица 1. Результаты поиска гомологов

ID белка Координаты лучшей находки: скэффолд, мин коорд, макс коорд Параметры лучшей находки (E, Identity%, длина в а.к.о.) Соответствие лучшей находки и доменов Результат
HSP71_YEAST scaffold-199, 2-607, 1107430-1109256 Expect = 0.0(слишком мал, занулился), Identities = 481/609 (79%), 609 а. к. о. Первая находка, которая описана выше, даёт выравнивание с большим счётом, при этом выравнивание почти по всей длине начального белка, идентичность 79%, что для белковой последовательности достаточно велико. Более-менее значительные различия появляются в концевой части белка, где может быть не настолько важная функциональная часть. Поэтому я думаю, что это гомологи гомолог
TBB_NEUCR unplaced-665, 1-428 (белок), 5887-7236 (нуклеотидная посл-ть) Expect = 0.0(слишком мал, занулился), Identities = 367/450 (82%), 428 а. к. о. В первой половине выравнивания лучшей находки есть делеция 22 аминокислот, но остальная часть белка достаточно консервативна, идентичность больше 80%. Можно предположить, что эти аминокислоты не образовывали важный функциональный домен. Поэтому я считаю, что белки гомологичны гомолог
PRPC_EMENI scaffold-693, 86-460(белок), 1243882-1244994(геном) Expect = 6e-121, Identities = 212/376 (56%), 375 а. к. о. У белков довольно низкая идентичность 56%, но в середине выравнивания - примерно с 260 до 350 а. к. о. - участок высокой идентичности. Я считаю, что последовательности содержат гомологичные домены содержит гомологичный домен

4. Найти один ген белка, закодированный в одном скэффолде ''Amoeboaphelidium protococcarum''


Информацию о длинах скэффолда можно полечить командой infoseq пакета EMBOSS:
infoseq <имя файла> -only -name -length
Получить последовательность нужного скэффолда можно командой seqret:
seqret <имя файла>:<имя последовательности> -out <имя выходного файла>
Для поиска выбран scaffold-51 длины 57241 пар нуклеотидов. Параметры поиска в Blastx; E-value = 1.0E-3; swissprot. Найден ген митохондриальный фактор элонгации G. BlastX выдал большое количество (около 50) удачных выравниваний скэффолда с данным белком, длина 700-800 а.к.о., идентичность в этих выравниваниях больше 50%, E-value настолько мало, что занулилось. Можно сделать вывод, что это достоверный ген обратной ориентации с координатами примерно 42522-44780







© Миронова Екатерина 2017 год