Entrez Direct, BLAST+, EMBOSS

Поиск гомологов белков в неаннотированном геноме

Была создана локальная база данных из файла X5.fasta с неанотированной сборкой генома Amoeboaphelidium protococcarum, дальнего родственника грибов. Локальная база данных была создана с помощью команды: makeblastdb -in X5.fasta -dbtype nucl. Saccharomyces cerevisiae близкий родственник Amoeboaphelidium protococcarum с хорошо анотированными белками. Было выяснено через проверку царства Fungi запросом: taxonomy:fungi AND reviewed:yes. Для нахождения белков Saccharomyces cerevisiae был сделан запрос: taxonomy:saccharomyces cerevisiae AND reviewed:yes. Были выбраны три белка, принадлежащие Saccharomyces cerevisiae: Serine/threonine-protein kinase STE20, Heat shock protein SSA1, Tubulin beta chain. Гомологи всех трех белков, по-видимому, представлены в сборке. С пмощью команды seqret sw:AC AC.fasta можно получить последовательность белка. Команда blastn -task blastn -query query.fasta -db db.fasta запускает выравниевание с результатом в виде текстового файла.

  • Ссылка на последовательность белка Serine/threonine-protein kinase STE20. Выдача BLAST находиться в текстовом файле Q03497.txt. В выдаче первая находка(scaffold-26) имеет процент идентичности 69 при проценте покрытия 29,7%, что делает её не самой доставерной находкой. e-value равен 3e-110. Значение positives состовляет 81%.
  • Ссылка на последовательность белка Heat shock protein SSA1. Выдача BLAST находиться в текстовом файле P10591.txt. В выдаче первая находка(scaffold-199) имеет процент идентичности 79 при проценте покрытия 94,2%, а e-value равен 0.0. Значение positives состовляет 90%. Эти результаты, включая процент покрытия, показывают, что данный белок скорее всего является гомологом одного из белков в анализируемой сборке генома.
  • Ссылка на последовательность белка Tubulin beta chain. Выдача BLAST находиться в текстовом файле P02557.txt. В выдаче вторая находка(scaffold-26) имеет процент идентичности 81 при проценте покрытия 93,7%, а e-value равен 0.0. Значение positives состовляет 92%. Эти результаты, включая данные о проценте покрытия, показывают, что данный белок скорее всего является гомологом одного из белков в анализируемой сборке генома.