0. Упражнения по EMBOSS
1. Скрипт
Я выбрал 3-е задание: "Найти частоты динуклеотидов в геноме бактерии, сравнить их с ожидаемыми и определить динуклеотид, частота которого наиболее отклоняется от наблюдаемой". Так как ожидаемая частота динуклеотида XY получается перемножением частот X и Y, то она будет равна 1/16 или 0,0625. Итоговый (скрипт). В качестве последовательности я сгенерировал случайную последовательность длины 198 файл. Пример запуска:
vitbuev@kodomo:~/public_html/terms/term3/pr9$ python3 nucl.py test.fasta AC - 0.08121827411167512 CA - 0.07614213197969544 GA - 0.07614213197969544 TG - 0.07614213197969544 CT - 0.07614213197969544 TT - 0.07106598984771574 CC - 0.06598984771573604 AG - 0.06598984771573604 GG - 0.06598984771573604 AA - 0.06091370558375635 TA - 0.06091370558375635 AT - 0.06091370558375635 TC - 0.05583756345177665 GT - 0.050761421319796954 GC - 0.03553299492385787 CG - 0.02030456852791878 --------------Result------------ Maximum frequency deviation: CG - 0.03364400814793062
2. Поиск гомологов белков в неаннотированном геноме
Необходимо было выбрать 3 белка, которые, по нашему мнению, должны быть у всех эукариот. Я выбрал: PABP (белок, садящийся на polyA конец мРНК, необходим для её защиты от деградации и правильной инициации), histone 1, fibrillarin (белок, находящийся в комплексе с малой ядерной рнк типа C/D, обеспечивает метилирование сахарно-фосфатного остова рРНК). Ниже представлен запрос в UniProt и выбранный Entry (так получилось, что везде выпали S.cerevisiae):
taxonomy:"Fungi [4751]" histone h1 AND reviewed:yes P53551 taxonomy:"Fungi [4751]" pabp AND reviewed:yes P04147 taxonomy:"Fungi [4751]" fibrillarin AND reviewed:yes P15646
Затем при помощи "seqret" были скачаны последовательности, а затем был запущен blast:
makeblastdb -in X5.fasta -dbtype nucl tblastn -query P53551 -db X5.fasta -out P53551.out tblastn -query P04147 -db X5.fasta -out P04147.out tblastn -query P15646 -db X5.fasta -out P15646.out
Полученные файлы: P53551.out; P04147.out; P15646.out. Из них видно, что Amoeboaphelidium protococcarum, скорее всего, имеет фибрилларин (процент идентичности 75%), правда настораживает, что нашлось только 3 скэффолда. Для гистона H1 процент идентичности - 51%, да и E-value относительно высокое, что говорит о том, что эти белки, скорее всего, негомологичны. PABP имеет процент идентичности - 52%, но, в отличие от гистона, E-value достаточно маленький, и первые 4 находки находятся в одной рамке считывания, так что я бы предположил их гомологичность.