ПРАКТИКУМ №9: EMBOSS
Задание №0: Упражнения по EMBOSS
Файл pr9_emboss.txt с выполненными заданиями находится в ~/term3/block2/pr9_emboss.txt
Задание №1: Скрипт bash, решающий задачу 3
Задача:
Найти частоты динуклеотидов в геноме бактерии, сравнить их с ожидаемыми и определить динуклеотид, частота которого
наиболее отклоняется от наблюдаемой. Ожидаемая частота XY = (наблюдаемая частота X) * (наблюдаемая частота Y).
input: ecoli.txt (геном E.coli)
output:
Скрипт можно посмотреть по ссылке: compseq-report.sh
Задание №2: Поиск гомологов белков в неаннотированном геноме
Для начала была создана локальная база данных для поиска по ней гомологов белков.
Запрос: makeblastdb -in X5.fasta -dbtype nucl.
Затем был выбран относительно близкий родственник Amoeboaphelidium protococcarum - Agaricus bisporus,
и три аннотированных белка, принадлежащих ему: Histone H2A, DNA ligase 4, 60S ribosomal protein L42-A.
Поисковый запрос UniProt для поиска белков: taxonomy:"Opisthokonta [33154]" AND reviewed:yes.
Далее последовательности белков были скачаны:
seqret "uniprot:Q8SSG3" 1.fasta
seqret "uniprot:Q8BTF7" 2.fasta
seqret "uniprot:P0CX27" 3.fasta
Затем был произведен поиск в локальном blast по запросам:
tblastn -query 1.fasta -db X5.fasta -out 1.txt
tblastn -query 2.fasta -db X5.fasta -out 2.txt
tblastn -query 3.fasta -db X5.fasta -out 3.txt
Результаты можно скачать по ссылкам:
Histone_h2a.txt
DNA_ligase.txt
60S_ribosomal.txt
Процент идентичности у гистона - 32%, причем покрытие чуть больше 73%, из-за этого можно в целом говорить о
гомологии на этом участке.
Процент идентичности лучшей находки у лигазы - 28%, хотя покрытие чуть больше 94%, что вероятно может быть подтвержением
гомологии, однако не позволяет говорить об этом с большой степенью уверенности из-за невысокого процента идентичности.
Процент идентичности лучшей находки у 60S рибосомального белка - 81%, и покрытие близко к 100%, поэтому
скорее всего ему был найден гомолог.
|