Entrez Direct, BLAST+, EMBOSS

1. Поиск гомологов белков в неаннотированном геноме

В данном задании было необходимо с помощью BLAST+ сделать вывод о наличии гомолога белка в неаннотированной сборке генома Amoeboaphelidium protococcarum. Так как этот организм является примитивным родственником грибов, для поиска белков был выбран хорошо аннотированный представитель Fungi - Saccharomyces cerevisiae.

Поисковый запрос в UniProt:

reviewed:yes AND organism:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]"
Мною были выбраны 3 следующих белка :

Далее была создана локальная база данных из искомой сборки:

makeblastdb -in X5.fasta -dbtype nucl
COX1

Получение последовательности :
seqret 'sw:P00401' COX1_YEAST.fasta

Поиск гомологов с помощью tblastn:
tblastn -query COX1_YEAST.fasta -db X5.fasta -out COX1.txt -evalue 0.1
Выдача

Выравнивания первой находки имеют очень низкий e-value (1e-70 - 1e-04), высокий для белков процент индентичности (более 49% в каждом случае), а также в сумме почти полностью покрывают всю последовательность COX1, что говорит об очень высокой вероятности гомологии.

RS9A

Получение последовательности:
seqret 'sw:O13516' RS9A_YEAST.fasta

Поиск гомологов с помощью tblastn:
tblastn -query RS9A_YEAST.fasta -db X5.fasta -out RS9A.txt -evalue 0.1
Выдача

Два практически одинаковых выравнивания scaffold-693 и scaffold-243 (2 первые находки) имеют очень низкий e-value (2e-79 - 1e-78), 75% идентичности, отсутствие гэпов, а также покрывают белок более, чем на половину. Вероятнее всего, закодированный белок гомологичен RS9A. Две следующие находки так же почти идентичны между собой и имеют достаточно низкий e-value, но в сравнении с первыми двумя уступают по остальным параметрам. Возможно, это паралог.

TBB

Получение последовательности:
seqret 'sw:P02557' TBB_YEAST.fasta

Поиск гомологов с помощью tblastn:
tblastn -query TBB_YEAST.fasta -db X5.fasta -out TBB.txt -evalue 0.1

Выдача

Первая находка имеет e-value машинный ноль, 75% идентичности и покрывает около 94% от длины белка. Гомология очень вероятна.