Поиск по сходству (BLAST)

Задание 1

Файл с консенсусной последовательностью

Для консенсусной последовательности, полученной в практикуме 6, был произведен поиск в Blastn-"для поиска сколько-нибудь похожих последовательностей" по банку nr со стандартными параметрами. BlastN этой последовательности выдал 100 лучших совпадений. Для определения аннотации взяты три наиболее удачных выравнивания с лучшим покрытием и идентичностью от 92 до 98 %. Их можно увидеть на рисунке, выделенные в рамочку.

Oops

Судя по результатам моя последовательность кодирует не белок, а участок гена 18S рРНК малой (40S) субъединицы рибосомы эукариот. Последовательность гена рРНК явялется одной из наиболее консервативных и выдача бласт показывает, что разные организмы имеют достаточно высокое сходство. Все три выбранные мною последовательности принадлежат к роду Loxosomella. В данной выдаче явно выделяется самая верхний результат по значениям: (Max Score) 1219, (Total Score)1219, Query cover 100%, E_value-низкий и идентичность-98%. Все остальные последовательности отличаются низким покрытием и небольшой идентичностью. При выравнивании последовательностей отмечено 2 гэпа и 14 несовпадений нуклеотидов. Другие выдачи с таким же покрытием имеют более худшие данные показатели.

Oops

Можно сказать, что мой ген принадлежит к виду Loxosomella varians Полная таксономия:

Eukaryota, Metazoa, Lophotrochozoa, Entoprocta, Loxosomatidae, Loxosomella,Loxosomella varians.

Задание 2

В этом задании требовавлось сравнить списки находок нуклеотидных последовательностей тремя разными вариантами blast: megablast,blastn default, blastn sensitive. При стандартных параметрах во всех вариантах blast выдавал 100 лучших находок с высоким процентом идентичности. Чтобы получить более интересные результаты я попробовала ограничить выборку по роду Loxosomella:
Таблица 1.
Алгоритм Параметры алгоритма Число находок
megablast Стандартные; длина слова = 28; M/M Score 1,-2; 16
blastn default Стандартные; длина слова = 11; M/M Score 2,-3; 16
blastn sensitive Длина слова = 7; M/M Score 1,-4; 19

megablast

Oops

blastn с параметрами по умолчанию

Oops

blastn с максимально чувствительными параметрами

Oops

Вывод: Каждый вид blast выдал около 20 схожих последовательностей. megablast и blastn с параметрами по умолчанию выдали одинакооыое количесвто последовательностей, который различаются только расположением в таблице. У одной и той же последовательности в двух таблицах могут различаться значения, такие как: покрытие, идентичность, E-value. Больше всего находок(19) оказалось при работе с blastn sensitive. На основании этих данных можно сделать вывод, что blastn sensitive хорошо подходит для точного выравнивания высококонсервативных участков ДНК, а не целых генов, потому что он находит слишком большое количество совпадений с короткой длиной.

Далее необходимо было провести запуски BLAST для последовательности из генома вируса из предыдущего практикума. Для выполнения этого задания я выбрала CDS 49801..50091 вируса Klebsiella phage phiKO2.
>NC_005857.1:49801-50091 Klebsiella phage phiKO2, complete genome
ATGAAGAATTTAAAAATTGAATACGTTGATGGCCAGCTCGTTACCGTCGATGTTGAGGGGATCTCGATGC
TCAATGCAGGACTATCGGGCCTGAACTTTAGCCATTTTCTGGGGAAAGAACCGCATCTCAAGTTTGAGGT
AGGTGGCGAAATTCCCGAAGGACTGGCTCCCGCTCAACCGCAACAGCAAGAGCCAGCGCAAGCGTTCGAA
GGCGAGCACCTGCCAGCCGAAACGGCACAGCGCCATCAGCGTAACCGCAATAAAAATCGCAACCGTAACC
GGAGCCATTAA
Для начала я применила программы megablast, blastn (default) и blastn (sensetive) с теми же параметрами алгоритма, что и в прошлый раз, однако без ограничений по таксону.

megablast

Oops

blastn с максимально чувствительными параметрами

Oops

blastn с максимально чувствительными параметрами

Oops

В первом случае нашлось 2 последовательности, одна из которых являлась геномом бактериофага. Результаты подтвердили, что megablast стоит использовать при поиске близкородственных организмов с высоким Ident. Но и во втором случаи я получила 2 те же последовательности, хотя надо сказать, что при этом blastn искал их дольше по времени. Третий результат без ограничения параметров выдал 100 лучших последовательностей.

Задание 3

Для выполнения данного задания я выбрала три белка с генами:

TBB_NEUCR, H31_HUMAN, PGK_YEAST.

Я использовала базу данных последовательностей белков Uniprot. После выбора ID белка необходимо было нажать "FORMAT" и выбрать Fasta формат. Далее я использовала команду для создания локальной базы данных:

makeblastdb -in X5.fasta -dbtype nucl

Поскольку представленные последовательности белковые, то использовался tblastn:

tblastn -query XXX.fasta -db X5.fasta > XXX.out

Первым я выбрала белок Tubulin beta chain:

Тубулин является основным компонентом микротрубочек. В них, а также в цитоплазме клеток он находится в форме димера из одной молекулы α-тубулина и одной — β-тубулина. Внизу представлена картинка первой выдачи.

Oops

Выравнивание со unplaced-665 имеет E-value = 0.0 и высокий вес (742).Покрытие при длине белка 447 составляет 100%, есть длинный разрыв, но затем последовательность достаточно консервативна.Следовательно 2 последовательности гомологичны и, скорее всего, функционально схожи.
Таблица 1.
Histone H3.1 Изображение Основной компонент нуклеосомы. Нуклеосомы оборачивают и компактируют ДНК в хроматин, ограничивая доступность ДНК для клеточных механизмов, которые требуют ДНК в качестве шаблона. Таким образом, гистоны играют центральную роль в регуляции транскрипции, репарации ДНК, репликации ДНК и хромосомной стабильности. Лучший результат: scaffold-126,вес 244,E-value=2e-74. Покртыие 100%. Все это дает основание полагать, что полседовательности гомологично и функционально схожи.
Phosphoglycerate kinase Изображение Фермент, катализирующий обратимую реакцию переноса фосфатной группы от 1,3-дифосфоглицериновой кислоты к АДФ, в результате которой образуются 3-фосфоглицерат и АТФ. Находка положительная. Покрытие при выравнивании с scaffold-693: вес 484 и E-value=5e-153 составляет 100 %. Опять же есть длинный разрыв, но в остальном последовательность консервативна. 2 последовательности являются гомологами.

Задание 4

В 4м задании я использовала сборку Amoeboaphelidium X5 c kodomo. Длинну контига я получила командой infoseq пакета EMBOSS:

infoseq sca.fasta -only -name -length

scaffold-420 (73285)

При запусе Blast(blastx) на сайте NCBI я ограничила поиск по RefSeq Protein и по царству Fungi.

Oops

Oops

Одной из находок был cell differentiation protein rcd1 [Spizellomyces punctatus DAOM BR117] с E-value 2e-123, с достаточно большой идентичностью 74,52 % и с небольшим Query Cover, т.к. ген мал по сравнению с заданной последовательностью. Можно сделать предположение, что данный ген содержится в контиге scaffold-420.