Поиск организма по фрагменту нуклеотидной последовательности
На сервере NCBI был проведён поиск программой megablast по фрагменту №35. Нашлось всего 1 совпадение в банке NR. Информация по фрагменту:
- Фрагмент принадлежит археи Methanocella paludicola SANAE
- AC записи RefSeq: NC_013665.1
- AC записи GenBank: AP011532.1
- Координаты фрагмента в записи: 1145..1444
- Фрагмент является частью гена CDC6-1, который кодирует контролирующий клеточное деление белок-6
Поиск гомолога белка человека в слоне
С помощью команды infoseq sw:p*_human -only -name -desc -out p_prot.txt
был получен полный список белков человека. Из всего этого многообразия был выбран белок PanK1_human - пантотенат-киназа 1, фосфорилирующая пантотенат (витамин B5) до 4'-фосфопантотената.
Далее с помощью команды seqret sw:PanK1_human -auto
был получен файл с последовательностью этого белка.
Затем на сайте ENA с помощью ENA Sequence Search проведён поиск гомологов этого белка в геноме африканского слона (Loxodonta africana). В таблице 1 представлено описание лучшей находки и соответствующего ей выравнивания.
e-value | длина выравнивания | identity выравнивания | координаты гена в геноме слона | количество интронов |
---|---|---|---|---|
1*10-285 | 598 aa | 81% | 28967560..29036702 | 6 |
Выравнивание доступно по ссылке.
Поиск некодирующих последовательностей программой BLAST
С помощью SRS был определён AC в EMBL записи, описывающей геном бактерии Streptobacillus moniliformis - CP001779. Далее была получена полная запись , в которой найдены координаты тРНК, связывающейся с триптофаном: 596562..596636. Нужный фрагмент вырезан в файл tRNA.fasta. Затем проведён поиск гомологов данной последовательностей в банке nr по бактериям порядка Fusobacteriales 3-мя способами. Результаты представлены в таблице 2.
алгоритм | параметры | число находок с e-value < 10-3 | |
---|---|---|---|
длина слова | match/mismatch | ||
megablast | 28 | 1/-2 | 2 |
blastn | 11 | 2/-3 | 7 |
blastn | 7 | 1/-1 | 7 (10) |
Не удивительно, что megablast нашёл всего 2 гомолога, ведь он ищёт по слову в 28 нуклеотидов, из-за чего будут находиться только явные гомологи. Но не понятно, почему при выставлении наиболее чувствительных параметров в blastn, не увеличивается количество находок. Вероятно, уже на предыдущем алгоритме были выявлены все гомологи последовательности тРНК-trp. Однако, в последнем случае есть находки, в которых blast находит гомологичные последовательности в разных частях генома (10 таких хитов).
Сравнение программ BLASTN и MegaBLAST
Среди 7 полученных находок, 3 последовательности относятся к бактериям того же семейства, что и Streptobacillus moniliformis (т.е. к Leptotrichiaceae), а оставшиеся 4 к Fusobacteriaceae.
При поиске blastn с длиной слова 7 нуклеотидов, последовательности из другого семейства выравниваются лишь на 80% (а не на 100% как в остальных случаях). Сложно сказать, почему происходит именно так должно быть, это связано с "подгонкой" результатов программой.