BLAST+, EMBOSS, Entrez Direct

Поиск гомологов белков в неаннотированном геноме

Для выполнения задания была дана неаннотированная сборка генома организма Amoeboaphelidium protococcarum. Этот организм относится к кладе Заднежгутиковых (Opisthokonta) и исходя из родства подгрупп этой клады (рис. 1), для поиска генов белков в неаннотированной последовательности, я решила рассматривать белки организмов из группы Microsporidia. Будем считать гомологами все организмы из этой группы.

Для работы BLAST нужно создать базу данных на основе данной последовательности: makeblastdb -in X5.fasta -dbtype nucl Далее нужно было выбрать белки у гомологов и провести выравние их кодирующих последовательностей с данной сборкой генома (Табл. 1), параметры при запуске blastn - по умолчанию. Я решила брать белки, которые принимают участие в транскрипции, трансляции и репликации.

Family_tree Рис. 1. Филогенетическое дерево Amoeboaphelidium protococcarum[1]
Табл. 1. Поиск белков и выравнивание
Белок Последовательность Команда для получения последовательности Выдача
DNA-directed RNA polymerase II subunit RPB1 (В1 субъединица РНК полимеразы) RPB1_ENCCU
"dna-directed rna polymerase" taxonomy:"Microsporidia [6029]" AND reviewed:yes
seqret sw:"RPB1_ENCCU" -outseq RPB1.fasta
Ссылка
Eukaryotic translation initiation factor 2 subunit gamma (2 субъединица фактора инициации трансляции) IF2G_ENCCU
taxonomy:"Microsporidia [6029]" eif AND reviewed:yes
seqret sw:"IF2G_ENCCU" -outseq IF2G.fasta
Ссылка
Histone H4 (H4 гистон, участвующий в образовании нуклеосомы) H4
taxonomy:"Microsporidia [6029]" "histone h4" AND reviewed:yes
seqret sw:"H4_ENCCU" -outseq H4.fasta
Ссылка

Результаты

Результаты показали, что эти белки скорее всего есть у Amoeboaphelidium protococcarum. Проценты идентичности и схожести аминокислот довольно высокие, при этом многие области белков хорошо покрыты, что указывает на схожесть доменов этих белков. При этом нужно учитывать, что сборка генома не идеальна и белки могут не уместиться на одном скэффолде, а после скэффолда последовательность может быть не секвенирована или просто на ней находится слишком маленький участок белка, так что BLAST не выдает этот участок.

Табл. 2. Результаты выдачи
Белок Удачные находки E-Value Процент идентичности Комментарий
B1 субъединица РНК полимеразы scaffold-300 0.0 47% Анализируя выравнивание, можно увидеть 3 предположительных домена белка, которые влезли на 300 скэффолд. Скорее всего, РНК полимераза не помещается на скэффолд полностью и продолжается после его конца.
2 субъединица фактора инициации трансляции scaffold-451 3e-137 52% Белок почти полностью поместился в скэффолде, заметны 2 предположительных домена.
Гистон H4 unplaced-422 1e-05 43% Белок почти полностью поместился в скэффолд, есть 2 более-менее косервативных участка

Литература

[1]Letcher PM, Lopez S, Schmieder R, Lee PA, Behnke C, Powell MJ, McBride RC. Characterization of Amoeboaphelidium protococcarum, an algal parasite new to the cryptomycota isolated from an outdoor algal pond used for the production of biofuel. PLoS One. 2013;8(2):e56232. doi: 10.1371/journal.pone.0056232. Epub 2013 Feb 20. PMID: 23437098; PMCID: PMC3577820.