Поиск организма по фрагменту нуклеотидной последовательности

На сервере NCBI был проведён поиск программой megablast по фрагменту №35. Нашлось всего 1 совпадение в банке NR. Информация по фрагменту:

Поиск гомолога белка человека в слоне

С помощью команды infoseq sw:p*_human -only -name -desc -out p_prot.txt был получен полный список белков человека. Из всего этого многообразия был выбран белок PanK1_human - пантотенат-киназа 1, фосфорилирующая пантотенат (витамин B5) до 4'-фосфопантотената.

Далее с помощью команды seqret sw:PanK1_human -auto был получен файл с последовательностью этого белка.

Затем на сайте ENA с помощью ENA Sequence Search проведён поиск гомологов этого белка в геноме африканского слона (Loxodonta africana). В таблице 1 представлено описание лучшей находки и соответствующего ей выравнивания.

Таблица 1 Описание лучшей находки гомолога белка Pank1_human в африканском слоне
e-value длина выравнивания identity выравнивания координаты гена в геноме слона количество интронов
1*10-285 598 aa 81% 28967560..29036702 6

Выравнивание доступно по ссылке.

Поиск некодирующих последовательностей программой BLAST

С помощью SRS был определён AC в EMBL записи, описывающей геном бактерии Streptobacillus moniliformis - CP001779. Далее была получена полная запись , в которой найдены координаты тРНК, связывающейся с триптофаном: 596562..596636. Нужный фрагмент вырезан в файл tRNA.fasta. Затем проведён поиск гомологов данной последовательностей в банке nr по бактериям порядка Fusobacteriales 3-мя способами. Результаты представлены в таблице 2.

Таблица 2 Сравнение алгоритмов поиска Nucleotide BLAST
алгоритм параметры число находок с e-value < 10-3
длина слова match/mismatch
megablast 28 1/-2 2
blastn 11 2/-3 7
blastn 7 1/-1 7 (10)

Не удивительно, что megablast нашёл всего 2 гомолога, ведь он ищёт по слову в 28 нуклеотидов, из-за чего будут находиться только явные гомологи. Но не понятно, почему при выставлении наиболее чувствительных параметров в blastn, не увеличивается количество находок. Вероятно, уже на предыдущем алгоритме были выявлены все гомологи последовательности тРНК-trp. Однако, в последнем случае есть находки, в которых blast находит гомологичные последовательности в разных частях генома (10 таких хитов).

Сравнение программ BLASTN и MegaBLAST

Среди 7 полученных находок, 3 последовательности относятся к бактериям того же семейства, что и Streptobacillus moniliformis (т.е. к Leptotrichiaceae), а оставшиеся 4 к Fusobacteriaceae.

При поиске blastn с длиной слова 7 нуклеотидов, последовательности из другого семейства выравниваются лишь на 80% (а не на 100% как в остальных случаях). Сложно сказать, почему происходит именно так должно быть, это связано с "подгонкой" результатов программой.