Практикум №9

BLAST+, EMBOSS

0. Упражнения по EMBOSS

файл

1. Скрипт

Я выбрал 3-е задание: "Найти частоты динуклеотидов в геноме бактерии, сравнить их с ожидаемыми и определить динуклеотид, частота которого наиболее отклоняется от наблюдаемой". Так как ожидаемая частота динуклеотида XY получается перемножением частот X и Y, то она будет равна 1/16 или 0,0625. Итоговый (скрипт). В качестве последовательности я сгенерировал случайную последовательность длины 198 файл. Пример запуска:

vitbuev@kodomo:~/public_html/terms/term3/pr9$ python3 nucl.py test.fasta
AC - 0.08121827411167512
CA - 0.07614213197969544
GA - 0.07614213197969544
TG - 0.07614213197969544
CT - 0.07614213197969544
TT - 0.07106598984771574
CC - 0.06598984771573604
AG - 0.06598984771573604
GG - 0.06598984771573604
AA - 0.06091370558375635
TA - 0.06091370558375635
AT - 0.06091370558375635
TC - 0.05583756345177665
GT - 0.050761421319796954
GC - 0.03553299492385787
CG - 0.02030456852791878
--------------Result------------
Maximum frequency deviation:
CG - 0.03364400814793062

2. Поиск гомологов белков в неаннотированном геноме

Необходимо было выбрать 3 белка, которые, по нашему мнению, должны быть у всех эукариот. Я выбрал: PABP (белок, садящийся на polyA конец мРНК, необходим для её защиты от деградации и правильной инициации), histone 1, fibrillarin (белок, находящийся в комплексе с малой ядерной рнк типа C/D, обеспечивает метилирование сахарно-фосфатного остова рРНК). Ниже представлен запрос в UniProt и выбранный Entry (так получилось, что везде выпали S.cerevisiae):

taxonomy:"Fungi [4751]" histone h1 AND reviewed:yes 	P53551
taxonomy:"Fungi [4751]" pabp AND reviewed:yes 		P04147
taxonomy:"Fungi [4751]" fibrillarin AND reviewed:yes 	P15646

Затем при помощи "seqret" были скачаны последовательности, а затем был запущен blast:

makeblastdb -in X5.fasta -dbtype nucl
tblastn -query P53551 -db X5.fasta -out P53551.out
tblastn -query P04147 -db X5.fasta -out P04147.out
tblastn -query P15646 -db X5.fasta -out P15646.out

Полученные файлы: P53551.out; P04147.out; P15646.out. Из них видно, что Amoeboaphelidium protococcarum, скорее всего, имеет фибрилларин (процент идентичности 75%), правда настораживает, что нашлось только 3 скэффолда. Для гистона H1 процент идентичности - 51%, да и E-value относительно высокое, что говорит о том, что эти белки, скорее всего, негомологичны. PABP имеет процент идентичности - 52%, но, в отличие от гистона, E-value достаточно маленький, и первые 4 находки находятся в одной рамке считывания, так что я бы предположил их гомологичность.