последовательность . Для поиска использовался
blastn с параметрами по умолчанию (тк мы вообще не знаем, кодирует ли наша последовательность белок)
Выдача была такой:
Далее, я рассматривала 5 самых схожих последовательностей.
Кодирующий участок | 20 - 400 | Просмотрев начала и концы выравниваний
для первых 5и находок, а так же все-таки учитывая, что считывание идет
от старт-кодона (ATG) до стоп-кодона (в нашем случае - TAG)
я бы разметила кодирующий участок таким образом.
выравнивание конца с достаточно длинной находкой № 5: выравнивание начала с достаточно длинной находкой № 2: Проверка, что и оффициально все должно считываться: |
---|---|---|
Функция | histone H3 | Сходство с последовательностями как нуклеотидными, например первой находки - достаточная! Я также оттранслировала белок и по выравниванию видно, что аминокислотная последовательность высококонсервативна, и мы очень уверенно можем сказать, что белки будут одиноковы по функции. |
Таксономия | Eukaryota; Metazoa; Lophotrochozoa; Annelida; Polychaeta | Тут я пришла в некоторое замешательство, тк судя по всему, последовательность
гистона крайне консервативна - об этом свидетельствует и очень высокий E-value для такого большого
количества последовательностей, и качество выравнивания , где три последние последовательности -
из типа Ecdysozoa, а верхние 3 - из типа Lophotrochozoa. (или вот картинка) Но так как большинство самых близких находок были из разных классов полихет (Scolecida, Phyllodocida), я думаю, что скорее всего, это некий полихет. А также потому что иначе придется брать гораздо шире - всех многоклеточных. Тут также стоит учесть, что на самом деле клады Ecdysozoa и Lophotrochozoa эволюционно очень близки - это соседние ветки. Так что альтернативно можно сказать, что данная последовательность моет относиться к представителям этих двух типов. |
Из-за высокой консервативности, находок всегда оказывалось более 100 штук - поэтому можно посмотреть на порядок последовательностей в выдаче - он отличсется.
Параметры | Выдача |
|
|
Cобственно, ничего не изменялось | |
Описание белка из RefSeq записи:"The replicase holoenzyme of Leviviridae consists of
the phage encoded replicase (the beta subunit), as well as
three host encoded proteins (alpha subunit: ribosomal
protein S1; gamma subunit: EF-Tu; delta subunit: EF-Ts).
The ribosomal protein S1 mediates binding of the
holoenzyme to internal sites in the RNA, which allows the
replicase to compete with translation for genomic RNA,
since S1 also mediates the binding of the ribosome to the
coat protein start site."
fasta с последовательностью
Переделывая задание, я, мякго скажем удивилась.
Выдачи трех бластов были очень разными. В табличке выше приведены несклоько совпавших
по accession последовательностей и процент покрытия изначального белка.
Если я правильно поняла, megablast по сути выдал высококонсервативные домены,
а чувствительный бласт - скорее последовательности, схожие по всей длине. Еще
для меня странно, что среди выдачей этих двух вообще нет пересечениий по последовательностям!
На лекции мы обсуждали, что у megablast большая специфичность,
а у blastn - чувствительность. Наверное, Blastn обнаружил и выдал
больше похожих последовательностей. А megablast на эти последовательности не наткнулся,
но зато найденные им последовательности очень кконсервативны.
Тем не менее такую разницу очень хотелось бы алгоритмически объяснить, а я на пальцах не очень
все-таки понимаю.
Я посмотрела в Pfam,
и кажется два найденный консервативных домена - это места связывания с магнием и РНК.
Тип бласта и выводы | Table | Graphics |
1. Megablast Нашлись совсем небольшие участки - видимо, это некоторый высококонсервативный участок, который в данных последовательностях крайне схож. |
||
2. Blastn c параметрами по умолчанию. Есть участкки как небольшие - как и в megablast заметен консервативный участок с ~1050 - 1150, и несколько чуть менее консервативных (видимо) участков. Также попалась последовательность, захватывающая достаточно большой участок белка. |
||
3. Blastn чувствительный. Длина слова - 15, штрафы 4/-5 Интересно, нашлись гораздо более длинные участки с гораздо большим покрытием. |
Использовался tblastn. Описание скачивания последовательности белка:
запуск локального бласта:
sofyagdk26@kodomo:~/term3/block2$ makeblastdb -in X5.fasta -dbtype nucl
sofyagdk26@kodomo:~/term3/block2$ tblastn -query aldo.fasta -db X5.fasta -out aldo.out
белок | выдача | вывод |
---|---|---|
1. aldolase | выдача, 2 находки, best identity - 55% | Альдолаза - один из ключевых ферменов гликолиза (расщепления гиликозы до ПВК, ну или в обратную сторону - глюконеогенеза). Катализирует реакцию превращения фруктозе-1,6-дифосфата (бисфосфата) в дигидроксиацетонфосфат и глицеральдегид-3-фосфат (от С6 в С3 + С3). Процесс гликолиза - древний и анаэробный, поэтому и ферменты должны быть у всех предствлены. Iddentity c человеческим оказался 55%, что достаточно много для столь далеко отстоящих организмов. Находок было две. Вопрос: это у грибов два гомолога или в 2х хромосомах? Скорее всего это 2 хромосомы, тк последовательности найденные уж больно между собой похожи. |
2. tubuline A | выдача 5 находок, best identity - 93% | Тубулин А - структурный белок микротрубочек - очень удачного приобретения эукариот. Многоклеточные грибы вообще должны очень активно использовать микротрубочки для развиития своего вегетативного тела. Находок было 5, и первые 2 отличались невероятной консервативностью, что меня удивило - видимо, роль тубулина очень важна для эукариот, поэтому последовательность почти не эволюционирует |
3. arginase 1 | выдача 3 находки, best identity - 48% | Аргиназа катализирует реакцию аргинин + H2O = орнитин + мочевина. Это заключительная стадия цикла мочевины (убрать аммиак), происходящая в цитоплазме. Цикл необходим для рразложения и утилизаци продуктов азотистого обмена, часть стадий проходит в митохондрии, поэтому должен быть распространен среди эукариот. |
Мною был взят неразмеченный контиг коловратки
Достаточно длиный - 11,679 bp
При использовании blastx на всем контиге я получила такую выдачу:
Далее я воспользовалась поиском рамок считывания,
что позволило обнаружить потенциальные кодирующие участки.
А дальше - снова blastp:
Интересно, что вторая по длине рамка скорее всего ничего не кодирует -
бласт выдал всего одну последовательность, и то гипотетическую
итак, разметка:
CDS complement(7040..8593) /gene="Adgrf5" /product="adhesion G protein-coupled receptor F5 isoform X1" /protein_id="XP_021498863" /translation="MTIKLLNKKAAFKFINQLHQFSNKLDNLTEVQKITPSIQTDLQNITTKIE SLLESINVTINVTYNSIAILSLTKNHSIYSYSQTIGINSLLSYSTNMDIN GATTTISIDESSIDNLTSTDIYTFYFLPSVYFQHAQNDQRKIIVSPIVGV HLPNRFPRLINISFTNITHSLGSYSCEFWQAGNWNTSGCTHFEDSKSHRH FCSCDHTTSFALIFIPNKSIPQAYIPSITIAVLSIVCFCISIILSIYRQS TSFRHLSIGNIFSLLNSIVLFILLTVILIRGYQSSKIQSNTNNICSVSEQ NLAISTYFFLILTFASRTLLGICYFLAIFFHFIFIQYTSLSNKWLYVSLI LIILIALIPTIIIRIILNQWTNLFVRYDGDICWLHTSMIFRFIAIPIFIF ISLNFLIIFVITTRLFQFVIGRKKAQTSEKRFNISLLIWLSLCVSLGIAW IIGPFLQVISEDNNQSARTIIQWIFTFFIGLEGVWVLIVHVIFYLNQKRN MTKKQQKNLKKINKSDL"Точные границы гена мы видимо не можем найти, так как не знаем особенностей регуляции и где какие будут некодирующие области Также интересно, что по всей видимости, интронов в данном случае не было!