Entrez Direct, BLAST+, EMBOSS

Задание 1.Поиск гомологов белков в неаннотированном геноме

В данном задании было необходимо определить в неаннотированном геноме участки, которые могут являться возможными генами белков. Для этого с помощью следующей команды была получена локальная база данных, по которой далее будет осуществляться поиск с помощью программы tblastn:
makeblastdb -in X5.fasta -dbtype nucl
Согласно данным NCBI Taxonomy Amoeboaphelidium protococcarum относится к кладе Aphelida. У данной клады в UniProt нет хорошо аннотированных геномов и белков, поэтому, исходя из того, что исследуемый организм является родственником грибов, для поиска были выбраны хорошо аннотированные белки из Saccharomyces cerevisiae

Гистон H3

У всех эукариот в формировании хроматина участвуют гистоны, поэтому в геноме исследуемого организма, наиболее вероятно, должен присутствовать ген гистона H3.
Запрос в Uniprot:
taxonomy:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]" histone h3
Результат запроса: H3_YEAST
Получение последовательности белка:
seqret 'sw:P61830' h3.fasta
Получение полной информации о записи:
entret 'sw:P61830' -outfile h3.txt
Запрос в tblastn:
tblastn -query h3.fasta -db X5.fasta > h3_res.txt
В результате работы tblastn получается следующий результат. Программе удалось найти несколько находок с достаточно низким e-value, однако, вероятно, гомологичными гистону H3 белками в данном случае будут две первые находки, у которых с исходным белком большой процент идентичности (88%) и полное покрытие запроса и которые к слову между собой полностью идентичны, но находятся в разных скаффолдах. Это может быть обусловлено тем, что, возможно, у Amoeboaphelidium protococcarum два гена гистона Н3, как, например, у Saccharomyces cerevisiae.

60S рибосомный белок L2-A

Рибосомы участвуют в трансляции белки, следовательно рибосомальные гены должны присутствовать в геноме исследуемого организма. Поэтому возьмем 60S рибосомный белок L2-A.
Запрос в Uniprot:
taxonomy:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]" 60S ribosomal protein L2-A
Результат запроса: RL2A_YEAST
Получение последовательности белка:
seqret 'sw:P0CX45' rl2a.fasta
Получение полной информации о записи:
entret 'sw:P0CX45' -outfile rl2a.txt
Запрос в tblastn:
tblastn -query rl2a.fasta -db X5.fasta > rl2a_res.txt
В результате работы tblastn получается следующий результат. Здесь получается аналогичная предыдущему случаю ситуация. Первые две находки с наименьшим e-value представляют из себя идентичные друг другу последовательности, находящиеся на разных скаффолдах, при этом у них высокий процент идентичности с запрсом (69%) и почти полное его покрытие. Вероятно, это тоже связано с наличием двух копий гена L2-A в геноме исследуемого организма.

β-тубулин

У большинства эукариот должен быть тубулин для построения микротрубочек, которые выполняют множество важных функций, например, таких как участие в транспортных процессах внутри клетки и в процессе деления. Поэтому рассмотрим β-тубулин.
Запрос в Uniprot:
taxonomy:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]" tubulin beta chain
Результат запроса: TBB_YEAST
Получение последовательности белка:
seqret 'sw:P02557' tbb.fasta
Получение полной информации о записи:
entret 'sw:P02557' -outfile tbb.txt
Запрос в tblastn:
tblastn -query tbb.fasta -db X5.fasta > tbb_res.txt
В результате работы tblastn получается следующий результат. В данном случае наблюдается похожая на предыдущие ситуация, однако, между собой две лучшие находки уже не идентичны и покрывают запрос неполностью (для первой находки покрытие равно 93%, для второй 83%). Тем не менее, обе находки имеют довольно высокий процент идентичности с запросом, и, вероятно, это также связано с наличием двух генов для β-тубулина в исследуемом организме.