Поиск сходных нуклеотидных последовательностей, не кодирующих белки

Проводился поиск тРНК, гомологичной тРНК, которая переносит 4 остаток белка FCTA_ECOLI. Поиск проводился с помощью 4 алгоритмов в геноме Bacillus subtilis.

Аминокислотный остаток в 4-ой позиции белка   FCTA_ECOLI P
Соответствующий кодон в гене frc 5'-CCA-3'
Идеальный антикодон 5'-UGG-3'
Сколько можно было бы ожидать разных тРНК для остатка P, если опираться на генетический код? 4
Сколько разных тРНК для остатка P аннотировано в геноме кишечной палочки? 3
Характеристика выбранной для дальнейшего изучения тРНК:
      имя гена proM
      локализация гена в геноме 3980758..3980834
      распознаваемый кодон CCA
      антикодон UGG

Любопытным в данном случае является то, что первая позиция антикодона согласно генетическому коду является полностью вырожденной, однако обнаружено только 3 разных тРНК. Возможно, это связано с тем, что пролин - не самая используемая аминокислота (хотя и не редкая), поэтому такой набор вполне достаточен.

Программа FASTA BLASTN MegaBLAST discontiguous MegaBLAST
Длина якоря 6 11 28 11
Результаты поиска Z99104 (полный геном B. subtilis, секция 1 из 21) Z99119 (полный геном B. subtilis, секция 16 из 21), Z99104 (полный геном B. subtilis, секция 1 из 21) Z99119 (полный геном B. subtilis, секция 16 из 21), Z99104 (полный геном B. subtilis, секция 1 из 21) Z99119 (полный геном B. subtilis, секция 16 из 21), Z99104 (полный геном B. subtilis, секция 1 из 21)
Число находок с E-value < 0,01 1 2 2 (при -W 11) 2 (при -W 11)
Характеристика лучшей находки:
      E-value 2,2e-05 2e-11 1e-11 1e-11
      длина выравнивания 77 71 71 71
      вес выравнивания 145 63,9 63,9 63,9
      координаты в геноме 11462-11538; комплементарная цепь 3172164-3172090; комплементарная цепь 3172164-3172090; комплементарная цепь 3172164-3172090; комплементарная цепь
Аннотация лучшей находки по записи EMBL:
      имя гена trnO-Ile trnB-Pro trnB-Pro trnB-Pro
      это тРНК? да да  да  да 
      это тоже пролиновая тРНК? Изолейциновая. да  да  да 
 

Удивительное рядом - в геноме B. subtilis программой fasta была найдена изолейциновая тРНК, хотя на том же участке генома есть и пролиновая.

Обсуждение использованных программ

 

BLASTN

 

blastall -p blastn -d bs -i tRNA.fasta -o bln -e 0.01

Поставлен фильтр по e-value, чтобы не разбираться со случайными находками. В таких условиях было обнаружено 2 находки с одинаковыми e-value, обе являются пролиновыми тРНК. Этот факт не является чем-то неправдоподобным или экзотическим, случаи дупликации в геноме гена тРНК встречаются часто, т. к. это один из главных рабочих инструментов клетки.  

MegaBLAST

 

megablast -d bs -i tRNA.fasta -o meg -e 0.01 -D 2 -W 11

Снова поставлен фильтр по e-value. Параметру -D придано значение 2, чтобы формат выдачи соответствовал стандартному формату BLAST. Длина слова 28 не позволила найти ни одной находки (слишком строгое условие), поэтому пришлось ее уменьшить. При длине 11 были найдены те же находки, что и в предыдущем случае. Обращает на себя внимание более низкое значение e-value, связанное с алгоритмом работы MegaBLAST. Если снять столь жесткое условие по e-value, MegaBLAST выдает меньше находок, чем BLASTN.  

discontiguous MegaBLAST

 

megablast -d bs -i tRNA.fasta -o disc -e 0.01 -D 2 -W 11 -t 16 -N 2

Основные параметры те же, что и в предыдущем случае. Для перехода к алгоритму discontiguous MegaBLAST задана длина паттерна 16 (-t) при длине слова 11 (т.е. воспринимаются как значимые 11 нуклеотидов из 16). В таких условиях удалось найти все те же ожидаемые 2 последовательности. Если снять столь строгое ограничение по e-value, получаем еще меньше находок, чем в случае Megablast.  

Fasta

 

fasta34 tRNA.fasta bs_genome.fasta 6

Обнаружена только одна находка с нужным e-value, в отличие от всех остальных программ. Тем не менее это одна из тех же находок. Принципиальным отличием показалось то, что fasta34 не использует индексные файлы, а ищет непосредственно в базе данных. Видимо, это ухудшает возможность поиска. E-value находки больше, видимо это связано со странным наличием последовательности нуклеотидов, продолжающейся за пределы выравнивания. В целом мне не понравилось качество выдачи Fasta, при большом количестве трудноанализируемых находок второе из явных совпадений так и не было найдено. Возможно, оно частично попало в "мусор", однако осмысленным результат нельзя назвать даже в этом случае.