Файл с выбранными командами находится тут: ~/term3/block2/pr9_emboss.txt.
В данном разделе практикума для решения следующей задачи был написан скрипт на python, с использованием команд из EMBOSS: Найти частоты динуклеотидов в геноме бактерии, сравнить их с ожидаемыми и определить динуклеотид, частота которого наиболее отклоняется от наблюдаемой.
Скрипт можно найти по ссылке. Изначально в командную строку нужно ввести python3 1.py. Далее необходимо ввести название анализируемого файла.
Ниже на картинке представлен вывод программы для тестового файла coding.fasta
Задача данной части практикума: с помощью BLAST+ сделать вывод о наличии гомолога белка в неаннотированной сборке генома Amoeboaphelidium protococcarum. Сборка генома лежит для удобства тут. Сначала на основе сборки для дальнейшего использования BLAST+ была создана база данных с помощью команды makeblastdb -in X5.fasta -dbtype nucl.
Возможные гомологичные белки были найдены с помощью запроса в UniProtKB: taxonomy:"Fungi [4751]" AND reviewed:yes. Были выбраны следующие белки:
Их последовательности были загружены с помощью следующих команд:
seqret sw:P04689 -outseq P04689.fasta
seqret sw:P13099 -outseq P13099.fasta
seqret sw:O13601 -outseq O13601.fasta
Далее был запущен BLAST+ этих трех последовательностей по созданной базе данных:
tblastn -query P04689.fasta -db X5.fasta -out P04689_blast.out - вывод бласта тут.
tblastn -query P13099.fasta -db X5.fasta -out P13099_blast.out - вывод бласта тут.
tblastn -query O13601.fasta -db X5.fasta -out O13601_blast.out - вывод бласта тут.
Для первых двух белков бласт выдал находки, по которым можно говорить о существованиии гомологов в неаннотированной сборке генома. Об этом говорит большое количество совпадений, большой вес выравнивания и маленький e-value. Для третьего белка, на мой взгляд, не нашлось выравниваний, по которым можно было бы судить о гомологии. Все выданные выравнивания покрывают очень небольшой кусок изначальной последовательности белка и имеют не так много совпадений.