В этом задании нужно было выбрать 7 упражнений из списка, выполнить их и записать правильные команды в текстовый файл.
Формулировки заданий:
#1
- Несколько файлов в формате fasta собрать в единый файл.
#2
- Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
#4
- Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные,
используя указанную таблицу генетического кода, и положить результат в один fasta файл.
#10
- Перемешать буквы в данной нуклеотидной последовательности.
#11
- Создать три случайных нуклеотидных последовательностей длины 100.
#14
- Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).
#16
- Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta.
Результат можно посмотреть здесь.
В этом задании нужно было проверить, сколько находок с E-value < 0.1 в среднем находит blastn для случайной последовательности данной длины в данном геноме бактерии.
Для этого был сделан скрипт в BASH, в котором makenucseq
из EMBOSS генерировал 100 случайных последовательноcтей фиксированной длины и задавал их в качестве query для blastn
.
У blastn была выбрана табличная форма выдачи, чтобы можно было легко посчитать число строк в ней. Сам скрипт можно посмотреть здесь.
В качестве референса был взят геном E. coli. Его можно скачать здесь.
Чтобы запустить скрипт, нужно сначала дать ему права на исполнения с помощью chmod +x scripth.sh
,
а затем исполнить командой ./script_1.sh <длина последовательности>
Я попробовал запустить скрипт для последовательностей разной длины и в среднем получились такие значения:
Таблица 1. Результаты выдачи скрипта при разной длине последовательности
Длина случайной последовательности | 10 | 25 | 50 | 100 | 250 | 500 | 1 000 | 10 000 | 100 000 | 1 000 000 |
Результат | 0 | 3,23 | 3,67 | 2,71 | 2,73 | 5,39 | 3,48 | 3,89 | 11,31 | 10,57 |
Задача состояла в том, чтобы с помощью BLAST+ сделать вывод о наличии гомолога белка в неаннотированной сборке генома
примитивного родственника грибов Amoeboaphelidium protococcarum.
Сборку генома можно найти тут.
Задание нужно было выполнить три раза, для любых трёх белков, которые, по моему мнению, должны быть почти у всех эукариот.
С помощью эволюционного дерева из этой статьи, я нашел
близкого родственника нашего организма: Encephalitozoon cuniculi, который, как оказалось, неплохо проаннотирован.
Для того, чтобы найти белки, я воспользовался поисковым запросом
organism:"encephalitozoon cuniculi" AND reviewed:yes
на сайте Uniprot.
Для рассмотрения я выбрал некоторые из наиболее распространенных среди эукариот белков: гистон, арсазу и ферменты гликолиза, скачал с сайта последовательности
и загрузил на сервер:
Таблица 2. Исследуемые белки (последовательности можно скачать из таблицы)
AC | Название |
Q8SSM8 | Альдолаза |
O96771 | Триптофанил-tRNA-синтетаза |
Q8SQP0 | Пируват-киназа |
makeblastdb -parse_seqids -in X5.fasta -dbtype nucl -out x5_db -logfile log_x5
tblastn -query Q8SSM8.fasta -num_threads 4 -db x5_db -out blast4.txt
(выдача)tblastn -query O96771.fasta -num_threads 4 -db x5_db -out blast1.txt
(выдача)tblastn -query Q8SQP0.fasta -num_threads 4 -db x5_db -out blast2.txt
(выдача)