Банк EMBL
1. Поиск в геноме участков, кодирующих белки, похожие на заданный
Мой белок - HutP_Bacsu. Заданный геном - полный геном бактерии Geobacillus thermodenitrificans.
Создаю в своей рабочей директории индексные файлы пакета BLAST+ для поиска по заданному геному:
Использую для решения данной задачи программу из пакета BLAST+ - TBLASTN, осуществляющую поиск гомологов белка в неаннотированных нуклеотидных последовательностях. Порог на E-value 0,001.
По результатам поиска, представленным в hutp-gt.txt, заполняю таблицу 1.
Таблица 1. Поиск гомологов белка HutP_Bacsu в геноме Geobacillus thermodenitrificans
Число находок с E-value < 0,001 |
1 |
E-value лучшей находки |
1e-47 |
Название последовательности с лучшей находкой |
Geobacillus thermodenitrificans NG80-2, complete genome. |
Координаты лучшей находки (от-до) |
410832-411278 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой |
100% |
2. Нахождение записи EMBL по последовательности программой BLASTN
Для заданной последовательности, с помощью интерфейса к программе BLASTN на сайте EBI, нашлось 50 записей, из которых 2 - с полным совпадением. Описываю первую - Streptomyces coelicolor A3(2) complete genome; segment 23/29:
а) запись EMBL AL645882;
б) координаты в записи 79604-79783; последовательность соответствует направлению записи;
в) в поле FT описан геном Streptomyces coelicolor, включающий в себя координаты записи AL645882, направление относительно записи прямое:
FT source 1..8667507 FT /organism="Streptomyces coelicolor" FT /strain="A3(2)" FT /mol_type="genomic DNA" FT /db_xref="taxon:1902"
3.Поиск гомологов гена программой BLASTN
С помощью первой записи EMBL M20659 , на которую ссылается запись Swiss-Prot для HutP_Bacsu, нахожу координаты 1121..1576 соответствующей CDS и вырезаю программой seqret в отдельный файл hutp.fasta:
Ищу гомологи этого гена в геноме Geobacillus thermodenitrificans программой BLASTN:
По результатам поиска, представленным в hutp-gt1.txt, гомологов не найдено:
Database: gt_genome.fasta 1 sequences; 3,550,319 total letters Query= M20659 M20659.1 B.subtilis hutH and hutP genes, encoding histidase and a positive regulatory protein, complete cds. Length=456 ***** No hits found *****
В записи Swiss-Prot для HutP_Bacsu было представлено еще две ссылки на записи EMBL: D31856, AL009126, я повторила поиск и с их использованием, но поиск снова не дал результатов:
Database: gt_genome.fasta 1 sequences; 3,550,319 total letters Query= D31856 D31856.1 Bacillus subtilis DNA, containing hut and wapA loci. Length=456 ***** No hits found ***** Database: gt_genome.fasta 1 sequences; 3,550,319 total letters Query= AL009126 AL009126.3 Bacillus subtilis subsp. subtilis str. 168 complete genome. Length=1 ***** No hits found *****
Можно сделать вывод, что программа BLASTN ищет гомологов гораздо хуже TBLASTN.
Поиски гомологичных белку кодирующих участков с использованием нуклеотид-нуклеотидных программ в принципе не рекомендованы на ncbi. Из-за вырожденности генетического кода, аминокислотные последовательности дают гораздо больше информации, поэтому алгоритмы с белками более надежны.
© Eugenia Prokhorova 2011