Банк EMBL

1. Поиск в геноме участков, кодирующих белки, похожие на заданный

Мой белок - HutP_Bacsu. Заданный геном - полный геном бактерии Geobacillus thermodenitrificans.

Создаю в своей рабочей директории индексные файлы пакета BLAST+ для поиска по заданному геному:

makeblastdb -in gt_genome.fasta -out gt -dbtype nucl

Использую для решения данной задачи программу из пакета BLAST+ - TBLASTN, осуществляющую поиск гомологов белка в неаннотированных нуклеотидных последовательностях. Порог на E-value 0,001.

tblastn -query hutp_bacsu.fasta -db gt -out hutp-gt.txt -evalue 0.001

По результатам поиска, представленным в hutp-gt.txt, заполняю таблицу 1.

Таблица 1. Поиск гомологов белка HutP_Bacsu в геноме Geobacillus thermodenitrificans

Число находок с E-value < 0,001

1

E-value лучшей находки

1e-47

Название последовательности с лучшей находкой

Geobacillus thermodenitrificans NG80-2, complete genome.

Координаты лучшей находки (от-до)

410832-411278

Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой

100%

2. Нахождение записи EMBL по последовательности программой BLASTN

Для заданной последовательности, с помощью интерфейса к программе BLASTN на сайте EBI, нашлось 50 записей, из которых 2 - с полным совпадением. Описываю первую - Streptomyces coelicolor A3(2) complete genome; segment 23/29:

а) запись EMBL AL645882;

б) координаты в записи 79604-79783; последовательность соответствует направлению записи;

в) в поле FT описан геном Streptomyces coelicolor, включающий в себя координаты записи AL645882, направление относительно записи прямое:

   FT   source          1..8667507
    FT                   /organism="Streptomyces coelicolor"
    FT                   /strain="A3(2)"
    FT                   /mol_type="genomic DNA"
    FT                   /db_xref="taxon:1902"

3.Поиск гомологов гена программой BLASTN

С помощью первой записи EMBL M20659 , на которую ссылается запись Swiss-Prot для HutP_Bacsu, нахожу координаты 1121..1576 соответствующей CDS и вырезаю программой seqret в отдельный файл hutp.fasta:

seqret M20659.embl -sask

Ищу гомологи этого гена в геноме Geobacillus thermodenitrificans программой BLASTN:

blastn -query hutp.fasta -db gt -out hutp-gt1.txt -evalue 0.001

По результатам поиска, представленным в hutp-gt1.txt, гомологов не найдено:

          Database: gt_genome.fasta
           1 sequences; 3,550,319 total letters



Query= M20659 M20659.1 B.subtilis hutH and hutP genes, encoding histidase
and a positive regulatory protein, complete cds.

Length=456


***** No hits found *****

В записи Swiss-Prot для HutP_Bacsu было представлено еще две ссылки на записи EMBL: D31856, AL009126, я повторила поиск и с их использованием, но поиск снова не дал результатов:

          Database: gt_genome.fasta
           1 sequences; 3,550,319 total letters



Query= D31856 D31856.1 Bacillus subtilis DNA, containing hut and wapA loci.

Length=456


***** No hits found *****

           Database: gt_genome.fasta
           1 sequences; 3,550,319 total letters



Query= AL009126 AL009126.3 Bacillus subtilis subsp. subtilis str. 168
complete genome.

Length=1


***** No hits found *****

Можно сделать вывод, что программа BLASTN ищет гомологов гораздо хуже TBLASTN.

Поиски гомологичных белку кодирующих участков с использованием нуклеотид-нуклеотидных программ в принципе не рекомендованы на ncbi. Из-за вырожденности генетического кода, аминокислотные последовательности дают гораздо больше информации, поэтому алгоритмы с белками более надежны.


© Eugenia Prokhorova 2011