BLAST+ и EMBOSS


Упражнения по EMBOSS

В этом задании нужно было выбрать 7 упражнений из списка, выполнить их и записать правильные команды в текстовый файл. Формулировки заданий:
#1 - Несколько файлов в формате fasta собрать в единый файл.
#2 - Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
#4 - Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.
#10 - Перемешать буквы в данной нуклеотидной последовательности.
#11 - Создать три случайных нуклеотидных последовательностей длины 100.
#14 - Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).
#16 - Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta.
Результат можно посмотреть здесь.

BASH-скрипт

В этом задании нужно было проверить, сколько находок с E-value < 0.1 в среднем находит blastn для случайной последовательности данной длины в данном геноме бактерии. Для этого был сделан скрипт в BASH, в котором makenucseq из EMBOSS генерировал 100 случайных последовательноcтей фиксированной длины и задавал их в качестве query для blastn. У blastn была выбрана табличная форма выдачи, чтобы можно было легко посчитать число строк в ней. Сам скрипт можно посмотреть здесь. В качестве референса был взят геном E. coli. Его можно скачать здесь. Чтобы запустить скрипт, нужно сначала дать ему права на исполнения с помощью chmod +x scripth.sh, а затем исполнить командой ./script_1.sh <длина последовательности> Я попробовал запустить скрипт для последовательностей разной длины и в среднем получились такие значения:

Таблица 1. Результаты выдачи скрипта при разной длине последовательности

Длина случайной последовательности 10 25 50 100 250 500 1 000 10 000 100 000 1 000 000
Результат 0 3,23 3,67 2,71 2,73 5,39 3,48 3,89 11,31 10,57
Этот результат можно интерпретировать так: случайная последовательность или её фрагмент может запросто найтись в геноме, причем, если последовательность довольно длинная, найтись могут многие её подпоследовательности.

Поиск гомологов белков в неаннотированном геноме с помощью BLAST+

Задача состояла в том, чтобы с помощью BLAST+ сделать вывод о наличии гомолога белка в неаннотированной сборке генома примитивного родственника грибов Amoeboaphelidium protococcarum. Сборку генома можно найти тут. Задание нужно было выполнить три раза, для любых трёх белков, которые, по моему мнению, должны быть почти у всех эукариот. С помощью эволюционного дерева из этой статьи, я нашел близкого родственника нашего организма: Encephalitozoon cuniculi, который, как оказалось, неплохо проаннотирован. Для того, чтобы найти белки, я воспользовался поисковым запросом organism:"encephalitozoon cuniculi" AND reviewed:yes на сайте Uniprot. Для рассмотрения я выбрал некоторые из наиболее распространенных среди эукариот белков: гистон, арсазу и ферменты гликолиза, скачал с сайта последовательности и загрузил на сервер:

Рис. 1. Эволюционное дерево Opisthokonta

Таблица 2. Исследуемые белки (последовательности можно скачать из таблицы)

AC Название
Q8SSM8 Альдолаза
O96771 Триптофанил-tRNA-синтетаза
Q8SQP0 Пируват-киназа
Для того, чтобы найти гомологи последовательностей в геноме, мы сначала его проиндексировали, а потом воспользовались алгоритмом tblastn, поскольку мы искали последовательность белка в нуклеотидной последовательности:
makeblastdb -parse_seqids -in X5.fasta -dbtype nucl -out x5_db -logfile log_x5
tblastn -query Q8SSM8.fasta -num_threads 4 -db x5_db -out blast4.txt (выдача)
tblastn -query O96771.fasta -num_threads 4 -db x5_db -out blast1.txt (выдача)
tblastn -query Q8SQP0.fasta -num_threads 4 -db x5_db -out blast2.txt (выдача)
Все находки уместились целиком на контигах, они имеют почти максимальное (и равномерное) покрытие, высокий процент идентичности и низкий e-value. Всё это в совокупности говорит о том, что с высокой вероятностью в геноме исследуемого вида есть гомологи этих белков.