Учебный сайт Лидии Гаркуль

EMBOSS: пакет программ для анализа последовательностей; Blast+

0. Упражнения по EMBOSS

Файл с выбранными командами находится тут: ~/term3/block2/pr9_emboss.txt.

1. Скрипт на Python

В данном разделе практикума для решения следующей задачи был написан скрипт на python, с использованием команд из EMBOSS: Найти частоты динуклеотидов в геноме бактерии, сравнить их с ожидаемыми и определить динуклеотид, частота которого наиболее отклоняется от наблюдаемой.

Скрипт можно найти по ссылке. Изначально в командную строку нужно ввести python3 1.py. Далее необходимо ввести название анализируемого файла.

Ниже на картинке представлен вывод программы для тестового файла coding.fasta

test
Рис. 1. Пример работы скрипта.

2. Blast+. Поиск гомологов белков в неаннотированном геноме

Задача данной части практикума: с помощью BLAST+ сделать вывод о наличии гомолога белка в неаннотированной сборке генома Amoeboaphelidium protococcarum. Сборка генома лежит для удобства тут. Сначала на основе сборки для дальнейшего использования BLAST+ была создана база данных с помощью команды makeblastdb -in X5.fasta -dbtype nucl.

Возможные гомологичные белки были найдены с помощью запроса в UniProtKB: taxonomy:"Fungi [4751]" AND reviewed:yes. Были выбраны следующие белки:

Их последовательности были загружены с помощью следующих команд:

seqret sw:P04689 -outseq P04689.fasta

seqret sw:P13099 -outseq P13099.fasta

seqret sw:O13601 -outseq O13601.fasta

Далее был запущен BLAST+ этих трех последовательностей по созданной базе данных:

tblastn -query P04689.fasta -db X5.fasta -out P04689_blast.out - вывод бласта тут.

tblastn -query P13099.fasta -db X5.fasta -out P13099_blast.out - вывод бласта тут.

tblastn -query O13601.fasta -db X5.fasta -out O13601_blast.out - вывод бласта тут.

Для первых двух белков бласт выдал находки, по которым можно говорить о существованиии гомологов в неаннотированной сборке генома. Об этом говорит большое количество совпадений, большой вес выравнивания и маленький e-value. Для третьего белка, на мой взгляд, не нашлось выравниваний, по которым можно было бы судить о гомологии. Все выданные выравнивания покрывают очень небольшой кусок изначальной последовательности белка и имеют не так много совпадений.