Поиск гомологов белков в неаннотированном геноме

После анализа таксономии Amoeboaphelidium protococcarum было принято решение использовать белки из Saccharomyces cerevisiae из-за того, что данный организм очень хорошо аннотирован. Поиск гомологов проводился для актина (P60010), бета-цепи тубулина (P02557) и миозина-3 (P36006).

Далее была создана локальная база данных на основе неаннотированного генома Amoeboaphelidium protococcarum командой:

makeblastdb -in genome.fasta -dbtype nucl

База была успешно создана:

Building a new DB, current time: 11/10/2021 16:55:36
New DB name:   /home/students/y20/jakewayd/public_html/terms/term3/emboss/genome.fasta
New DB title:  genome.fasta
Sequence type: Nucleotide
Keep MBits: T
Maximum file size: 1000000000B
Adding sequences from FASTA; added 1868 sequences in 0.229984 seconds.

Далее последовательности были пропущены через базу командой:

tblastn -query prots/P60010.fasta -db genome.fasta -out P60010.txt
tblastn -query prots/P02557.fasta -db genome.fasta -out P02557.txt
tblastn -query prots/P36006.fasta -db genome.fasta -out P36006.txt

Выдачи программы доступны по ссылкам:

Низкие значение e-value (0.0) присутвуют у всех белков, однако выравнивания с актином и тубулином также имеют и высокие значения identity (>75%), чего нельзя сказать о миозине: значение identity = 42%, что достаточно мало. Поэтому можно заключить, что актин и тубулин имеют гомологичные последовательности в геноме Amoeboaphelidium protococcarum, в то время как миозин-3 - скорее нет.

Упражнения по EMBOSS

Файл с командами лежит по пути ~/term3/pr9/emboss.txt

Работа с Entrez Direct

Скрипт лежит по пути `~/term3/pr9/edirect.sh

Ссылка на использованную статью:

Letcher, P. M.; Powell, M. J.; Lopez, S.; Lee, P. A.; McBride, R. C. (2015).
A new isolate of Amoeboaphelidium protococcarum, and Amoeboaphelidium occidentale, a new species in phylum Aphelida (Opisthosporidia). Mycologia, 107(3), 522–531. doi:10.3852/14-064