Практикум 8

Задание 1.

последовательность . Для поиска использовался blastn с параметрами по умолчанию (тк мы вообще не знаем, кодирует ли наша последовательность белок) Выдача была такой: image
Далее, я рассматривала 5 самых схожих последовательностей.

Таблица 1.
Кодирующий участок 20 - 400 Просмотрев начала и концы выравниваний для первых 5и находок, а так же все-таки учитывая, что считывание идет от старт-кодона (ATG) до стоп-кодона (в нашем случае - TAG) я бы разметила кодирующий участок таким образом. выравнивание конца с достаточно длинной находкой № 5: image
выравнивание начала с достаточно длинной находкой № 2: image Проверка, что и оффициально все должно считываться: image
Функция histone H3 Сходство с последовательностями как нуклеотидными, например первой находки - достаточная! Я также оттранслировала белок и по выравниванию видно, что аминокислотная последовательность высококонсервативна, и мы очень уверенно можем сказать, что белки будут одиноковы по функции. image
Таксономия Eukaryota; Metazoa; Lophotrochozoa; Annelida; Polychaeta Тут я пришла в некоторое замешательство, тк судя по всему, последовательность гистона крайне консервативна - об этом свидетельствует и очень высокий E-value для такого большого количества последовательностей, и качество выравнивания , где три последние последовательности - из типа Ecdysozoa, а верхние 3 - из типа Lophotrochozoa. (или вот картинка)
image Но так как большинство самых близких находок были из разных классов полихет (Scolecida, Phyllodocida), я думаю, что скорее всего, это некий полихет. А также потому что иначе придется брать гораздо шире - всех многоклеточных. Тут также стоит учесть, что на самом деле клады Ecdysozoa и Lophotrochozoa эволюционно очень близки - это соседние ветки. Так что альтернативно можно сказать, что данная последовательность моет относиться к представителям этих двух типов.

Задание 2.

Часть 1 - неинтересная - гистон

Из-за высокой консервативности, находок всегда оказывалось более 100 штук - поэтому можно посмотреть на порядок последовательностей в выдаче - он отличсется.

Таблица 1. H3 histone
Параметры Выдача

image
image
Cобственно, ничего не изменялось image
image image

Часть 2 - интересная - вирусный белок

Описание белка из RefSeq записи:"The replicase holoenzyme of Leviviridae consists of the phage encoded replicase (the beta subunit), as well as three host encoded proteins (alpha subunit: ribosomal protein S1; gamma subunit: EF-Tu; delta subunit: EF-Ts). The ribosomal protein S1 mediates binding of the holoenzyme to internal sites in the RNA, which allows the replicase to compete with translation for genomic RNA, since S1 also mediates the binding of the ribosome to the coat protein start site." fasta с последовательностью
image
Переделывая задание, я, мякго скажем удивилась.
Выдачи трех бластов были очень разными. В табличке выше приведены несклоько совпавших по accession последовательностей и процент покрытия изначального белка. Если я правильно поняла, megablast по сути выдал высококонсервативные домены, а чувствительный бласт - скорее последовательности, схожие по всей длине. Еще для меня странно, что среди выдачей этих двух вообще нет пересечениий по последовательностям!
На лекции мы обсуждали, что у megablast большая специфичность, а у blastn - чувствительность. Наверное, Blastn обнаружил и выдал больше похожих последовательностей. А megablast на эти последовательности не наткнулся, но зато найденные им последовательности очень кконсервативны. Тем не менее такую разницу очень хотелось бы алгоритмически объяснить, а я на пальцах не очень все-таки понимаю.
Я посмотрела в Pfam, и кажется два найденный консервативных домена - это места связывания с магнием и РНК. image
image

Таблица 2. CDS вируса
Тип бласта и выводы Table Graphics
1. Megablast
Нашлись совсем небольшие участки - видимо, это некоторый высококонсервативный участок, который в данных последовательностях крайне схож.
image image
2. Blastn c параметрами по умолчанию.
Есть участкки как небольшие - как и в megablast заметен консервативный участок с ~1050 - 1150, и несколько чуть менее консервативных (видимо) участков. Также попалась последовательность, захватывающая достаточно большой участок белка.
image image
3. Blastn чувствительный. Длина слова - 15, штрафы 4/-5
Интересно, нашлись гораздо более длинные участки с гораздо большим покрытием.
image image

Задание 3.

Использовался tblastn. Описание скачивания последовательности белка: image image image
запуск локального бласта:

sofyagdk26@kodomo:~/term3/block2$ makeblastdb -in X5.fasta -dbtype nucl 
sofyagdk26@kodomo:~/term3/block2$ tblastn -query aldo.fasta -db X5.fasta -out aldo.out

Таблица 3. Поиск белков.
белок выдача вывод
1. aldolase выдача, 2 находки, best identity - 55% Альдолаза - один из ключевых ферменов гликолиза (расщепления гиликозы до ПВК, ну или в обратную сторону - глюконеогенеза). Катализирует реакцию превращения фруктозе-1,6-дифосфата (бисфосфата) в дигидроксиацетонфосфат и глицеральдегид-3-фосфат (от С6 в С3 + С3). Процесс гликолиза - древний и анаэробный, поэтому и ферменты должны быть у всех предствлены. Iddentity c человеческим оказался 55%, что достаточно много для столь далеко отстоящих организмов. Находок было две. Вопрос: это у грибов два гомолога или в 2х хромосомах? Скорее всего это 2 хромосомы, тк последовательности найденные уж больно между собой похожи.
2. tubuline A выдача 5 находок, best identity - 93% Тубулин А - структурный белок микротрубочек - очень удачного приобретения эукариот. Многоклеточные грибы вообще должны очень активно использовать микротрубочки для развиития своего вегетативного тела. Находок было 5, и первые 2 отличались невероятной консервативностью, что меня удивило - видимо, роль тубулина очень важна для эукариот, поэтому последовательность почти не эволюционирует
3. arginase 1 выдача 3 находки, best identity - 48% Аргиназа катализирует реакцию аргинин + H2O = орнитин + мочевина. Это заключительная стадия цикла мочевины (убрать аммиак), происходящая в цитоплазме. Цикл необходим для рразложения и утилизаци продуктов азотистого обмена, часть стадий проходит в митохондрии, поэтому должен быть распространен среди эукариот.

Задание 4.

Мною был взят неразмеченный контиг коловратки
Достаточно длиный - 11,679 bp
При использовании blastx на всем контиге я получила такую выдачу: image
Далее я воспользовалась поиском рамок считывания, что позволило обнаружить потенциальные кодирующие участки. image
А дальше - снова blastp: image Интересно, что вторая по длине рамка скорее всего ничего не кодирует - бласт выдал всего одну последовательность, и то гипотетическую image
итак, разметка:

     CDS             complement(7040..8593)	
                     /gene="Adgrf5"
                     /product="adhesion G protein-coupled receptor F5 isoform X1"
                     /protein_id="XP_021498863"
                     /translation="MTIKLLNKKAAFKFINQLHQFSNKLDNLTEVQKITPSIQTDLQNITTKIE
                     SLLESINVTINVTYNSIAILSLTKNHSIYSYSQTIGINSLLSYSTNMDIN
                     GATTTISIDESSIDNLTSTDIYTFYFLPSVYFQHAQNDQRKIIVSPIVGV
                     HLPNRFPRLINISFTNITHSLGSYSCEFWQAGNWNTSGCTHFEDSKSHRH
                     FCSCDHTTSFALIFIPNKSIPQAYIPSITIAVLSIVCFCISIILSIYRQS
                     TSFRHLSIGNIFSLLNSIVLFILLTVILIRGYQSSKIQSNTNNICSVSEQ
                     NLAISTYFFLILTFASRTLLGICYFLAIFFHFIFIQYTSLSNKWLYVSLI
                     LIILIALIPTIIIRIILNQWTNLFVRYDGDICWLHTSMIFRFIAIPIFIF
                     ISLNFLIIFVITTRLFQFVIGRKKAQTSEKRFNISLLIWLSLCVSLGIAW
                     IIGPFLQVISEDNNQSARTIIQWIFTFFIGLEGVWVLIVHVIFYLNQKRN
                     MTKKQQKNLKKINKSDL"
 
Точные границы гена мы видимо не можем найти, так как не знаем особенностей регуляции и где какие будут некодирующие области Также интересно, что по всей видимости, интронов в данном случае не было!