Программы пакета BLAST для работы с нуклеотидными последовательностями

1. Поиск гомологов белка OMPT_ECOLI в геноме бактерии Salmonella enterica str. typhimurium

Я произвёл поиск гомологов белка по его аминокислотной последовательности с помощью программы TBLASTN.

Число находок с Е-value<0,001 1
Характеристика лучшей находки:
   E-value находки 3e-82
Название геномной последовательности AE008808
Координаты выравнивания в найденной последовательности 115 - 1050

2. Нахождение записи EMBL по последовательности с помощью программы BLASTN

В записи AF239770 банка EMBL нашёлся участок с 175 по 1110 нуклеотиды на комплементарной цепи, полностью соответствующий последовательности, найденой в предыдущем задании. Координаты единственного CDS: 175 - 1113. Имеются название гена, его продукта и AC соответствующих записей в других банках. В банке UniProt это запись P06185.

3. Поиск гомологов с помощью программы BLASTN

Теперь был сделан поиск гомологов белка по последовательности участка генома, его кодирующего, с помощью программы BLASTN.

Число находок с Е-value<10.0 10
Характеристика лучшей находки:
   E-value находки 0.059
Название геномной последовательности AE008861
Координаты выравнивания в найденной последовательности 18381 - 18398

Сравнение поиска по аминокислотной и нуклеотидной последовательностям

  Аминокислотная последовательность Нуклеотидная последовательность
Число находок с Е-value<0.001 1 0
Характеристика находок, соответствующих находке в первом задании:
   E-value находки 3e-82 0.92
Длина находки 320 20
Процент совпадений 46 95

Очевидно, поиск по аминокислотной последовательности намного лучше. При поиске по нуклеотидной последовательности находятся только короткие участки, причём такие же участки находятся и в негомологичных последовательностях. По моему мнению, это связано с тем, что белки кодируются двадцатью буквами, а гены всего четырьмя. Кроме того, код ДНК вырожден и практическая каждая третья буква кода не несёт в себе информации.



© Айдарханов Руслан 2008