Для выполнения задания была дана неаннотированная сборка генома организма Amoeboaphelidium protococcarum. Этот организм относится к кладе Заднежгутиковых (Opisthokonta) и исходя из родства подгрупп этой клады (рис. 1), для поиска генов белков в неаннотированной последовательности, я решила рассматривать белки организмов из группы Microsporidia. Будем считать гомологами все организмы из этой группы.
Для работы BLAST нужно создать базу данных на основе данной последовательности: makeblastdb -in X5.fasta -dbtype nucl Далее нужно было выбрать белки у гомологов и провести выравние их кодирующих последовательностей с данной сборкой генома (Табл. 1), параметры при запуске blastn - по умолчанию. Я решила брать белки, которые принимают участие в транскрипции, трансляции и репликации.
Белок | Последовательность | Команда для получения последовательности | Выдача |
---|---|---|---|
DNA-directed RNA polymerase II subunit RPB1 (В1 субъединица РНК полимеразы) | RPB1_ENCCU | "dna-directed rna polymerase" taxonomy:"Microsporidia [6029]" AND reviewed:yes seqret sw:"RPB1_ENCCU" -outseq RPB1.fasta |
Ссылка |
Eukaryotic translation initiation factor 2 subunit gamma (2 субъединица фактора инициации трансляции) | IF2G_ENCCU | taxonomy:"Microsporidia [6029]" eif AND reviewed:yes seqret sw:"IF2G_ENCCU" -outseq IF2G.fasta |
Ссылка |
Histone H4 (H4 гистон, участвующий в образовании нуклеосомы) | H4 | taxonomy:"Microsporidia [6029]" "histone h4" AND reviewed:yes seqret sw:"H4_ENCCU" -outseq H4.fasta |
Ссылка |
Результаты показали, что эти белки скорее всего есть у Amoeboaphelidium protococcarum. Проценты идентичности и схожести аминокислот довольно высокие, при этом многие области белков хорошо покрыты, что указывает на схожесть доменов этих белков. При этом нужно учитывать, что сборка генома не идеальна и белки могут не уместиться на одном скэффолде, а после скэффолда последовательность может быть не секвенирована или просто на ней находится слишком маленький участок белка, так что BLAST не выдает этот участок.
Белок | Удачные находки | E-Value | Процент идентичности | Комментарий |
---|---|---|---|---|
B1 субъединица РНК полимеразы | scaffold-300 | 0.0 | 47% | Анализируя выравнивание, можно увидеть 3 предположительных домена белка, которые влезли на 300 скэффолд. Скорее всего, РНК полимераза не помещается на скэффолд полностью и продолжается после его конца. |
2 субъединица фактора инициации трансляции | scaffold-451 | 3e-137 | 52% | Белок почти полностью поместился в скэффолде, заметны 2 предположительных домена. |
Гистон H4 | unplaced-422 | 1e-05 | 43% | Белок почти полностью поместился в скэффолд, есть 2 более-менее косервативных участка |
[1]Letcher PM, Lopez S, Schmieder R, Lee PA, Behnke C, Powell MJ, McBride RC. Characterization of Amoeboaphelidium protococcarum, an algal parasite new to the cryptomycota isolated from an outdoor algal pond used for the production of biofuel. PLoS One. 2013;8(2):e56232. doi: 10.1371/journal.pone.0056232. Epub 2013 Feb 20. PMID: 23437098; PMCID: PMC3577820.