EMBOSS

Задание 1.
Написан скрипт, результатом которого являются частоты динуклеотидов в геноме и динуклеотид, частота которого наиболее отклоняется от ожидаемой.
Скрипт
Команда запуска: bash script.sh random.fasta на примере случайной последовательности. Результат – таблица с частотами динуклеотидов и динуклеотид, частота которого наиболее отклоняется от ожидаемой – CG.
Вот что выдает скрипт:

Задание 2. BLAST+. Поиск гомологов белков в неаннотированном геноме.
С помощью BLAST+ были сделаны выводы о наличии гомологов 3 белков в неаннотированной сборке генома Amoeboaphelidium protococcarum: гистон H2A (Q8SSG3), альфа-цепь тубулина (Q8SRI6) и циклин-зависимая киназа 1 (Q8SR86) из родственного организма – микроспоридии Encephalitozoon cuniculi. Последовательности белков для поиска были получены с помощью поискового запроса по Uniprot (encephalitozoon cuniculi h2a AND reviewed:yes – для гистона, для тубулина и циклин-зависимой киназы – tubulin и cdk1 вместо h2a) и seqret (seqret 'uniprot:Q8SSG3' Q8SSG3). Q8SSG3
Q8SRI6
Q8SR86
Создание базы данных: makeblastdb -in X5.fasta -dbtype nucl
Параметры запуска BLAST: tblastn -query Q8SSG3.fasta -db X5.fasta -out Q8SSG3.out
Выдача 1
Выдача 2
Выдача 3
У Amoeboaphelidium protococcarum не нашлось гомологов гистона H2A, так как лучшая находка недостаточно похожа на Q8SSG3. Однако гомолог альфа-цепи тубулина есть, о чем свидетельствует E-value и Identity лучшей находки. Вероятно, у Amoeboaphelidium protococcarum есть и гомолог циклин-зависимой киназы 1: об этом говорят 4 лучших по E-value выравнивания в выдаче BLAST.