Entrez Direct, BLAST+, EMBOSS

1. Поиск гомологов белков в неаннотированном геноме

Задача: с помощью BLAST+ сделать вывод о наличии гомолога белка в неаннотированной сборке генома Amoeboaphelidium protococcarum (примитивный родственник грибов).

Для выполнения задания было решено искать хорошо аннотированные белки более менее родственного организма, из таксона Opistokonta среди грибов и им подобных, наиболее изученным организмом является Saccharomyces cerevisiae.

Прежде всего была создана локальная база данных:

makeblastdb -in X5.fasta -dbtype nucl
Получили базу в виде файлов "X5.fasta.nhr", "X5.fasta.nin" и "X5.fasta.nsq", по которой можно искать программами blastn и tblastn.

Как известно, самые консервативные белки играют важную роль в основных метаболитических процессах, например в гликолизе, в организации цитоскелета, в жизненном цикле. Их и будем искать.

Актины - это высококонсервативные белки, которые участвуют в различных типах подвижности клеток и повсеместно экспрессируются во всех эукариотических клетках.

Был сделан запрос

taxonomy:"Saccharomyces cerevisiae (Baker's yeast) [4932]" act1 AND reviewed:yes
Команда получения белковой последовательности:

 seqret "uniprot:P60010" P60010.fasta 
ссылка на последовательность

Команда поиска гомологов белка:

 tblastn -query "P60010.fasta" -db "X5.fasta" -out "act.txt" 
ссылка на выдачу BLAST+

Можно предположить, что последовательности актина, судя по всему присутствующая в Amoeboaphelidium protococcarum, и Saccharomyces cerevisiae гомологичны, т.к. очнь низкий e-value 0.0 и процент идентичности 89%.

Пируваткиназа 2 - может использоваться клетками в условиях очень низкого уровня гликолитического потока.

Был сделан запрос

taxonomy:"Saccharomyces cerevisiae (Baker's yeast) [4932]" "pyruvate kinase 2" reviewed:yes
Команда получения белковой последовательности:

 seqret "uniprot:P52489" P52489.fasta 
ссылка на последовательность

Команда поиска гомологов белка:

 tblastn -query "P52489.fasta" -db "X5.fasta" -out "pyr.txt" 
ссылка на выдачу BLAST+

Можно предположить, что последовательности Пируваткиназы 2, судя по всему присутствующая в Amoeboaphelidium protococcarum, и Saccharomyces cerevisiae гомологичны, т.к. очнь низкий e-value 7e-166 и процент идентичности 54%, что достаточно для белков.

Циклинзависимая киназа 1 - этот белок необходим для завершения старта, контролирующего события клеточного цикла

Был сделан запрос

taxonomy:"Saccharomyces cerevisiae (Baker's yeast) [4932]" "pyruvate kinase 2" reviewed:yes
Команда получения белковой последовательности:

 seqret "uniprot:P00546" P00546.fasta 
ссылка на последовательность

Команда поиска гомологов белка:

 tblastn -query "P00546.fasta" -db "X5.fasta" -out "cycle.txt" 
ссылка на выдачу BLAST+

Можно предположить, что последовательности циклинзависимой киназы 1, судя по всему присутствующая в Amoeboaphelidium protococcarum, и Saccharomyces cerevisiae гомологичны, т.к. очнь низкий e-value 5e-88 и процент идентичности 51%, что достаточно для белков.

2. Упражнения по EMBOSS

Файл доступен в директории ~/term3/pr9/emboss.txt

3. Работа с Entrez Direct

Файл доступен в директории ~/term3/pr9/edirect.sh.