Онлайн BLAST

1. Поиск организма по фрагменту нуклеотидной последовательности

Заданный нуклеотидный фрагмент:

>19                                  
cttccgaaaatttggttacgcagttgtcgaattttttgaaagaaaatatcagttttccaa
attatggagtggatggagataacgacattttatcgttccatgctgtcatcatttctcttc
gcttgttgaagaggtctcctctacgataagcggcttccactttgtcactgatggtatgtg
ccaaagccatttcggccacctctcctgggtagtcagtttcttccgcagcccagtctcgaa
aagtggagcgcaagccatggacggtcacgtcctttgtacccgctgcactgtgaagggctt

Организм: Acetobacter pasteurianus
AC записи RefSeq: NC_017108
Координаты фрагмента в записи: 1145-1444
Он является некодирующим (возможно, туда залез кусочек фаговой интегразы на комплементарной цепи)

2. Поиск гомолога белка человека в слоне

Название организма: Loxodonta africana
Идентификатор белка: Q9BZ67 (FRMD8_HUMAN)
Найдено 3 хита. У самой лучшей находки:
e-value: 2E-135
Длина выравнивания: 398
Identity: 88%
Координаты найденного гена: 4096009<-4094259
Количество интронов: 1

Используемый файл с нуклеотидной последовательностю. Можно отметить, что 3 хита располагаются на одной контиге supercontig:loxAfr3:scaffold_71:1:11040415:1 REF, однако, между ними приличные расстояния, что не позволяет с легкостью объединить их в один ген. Тем не менее, только небольшая часть последовательности mRNA выравнивается с геномом слона, что говорит о том, что все-таки 3 находки стоит объединить. Тогда получаем координаты 4101790<-4088177, количество интронов - 5.

 

110->486                 538->935              1052->1521
4101790<-4096489         4096009<-4094259      4092036<-4088177

А теперь поищем по белковой последовательности. Получаем 2 хита. Это лучше, чем для нуклеотидной последовательности.
e-value: 3E-144
Длина выравнивания: 290
Identity: 85%
Координаты найденного гена: 4100152<-4090947
Количество интронов: 5

По результатм можно объединить 2 хита в один ген.

3. Поиск некодирующих последовательностей программой BLAST

AC генома: AP009389 (найден с помощью SRS)
Бактерия: Pelotomaculum_thermopropionicum
Порядок: Clostridiales

Последовательность сериновой тРНК:

>AP009389 AP009389.1 Pelotomaculum thermopropionicum SI DNA, complete genome.
ggaggggtgtccgagcggtttaaggaggcggtcttgaaaaccgttgggctcttgcgggtc
ccgtgggttcgaatcccaccccctccgcca

Поиск осуществлялся по базе Nucleotide collection (nr/nt).
a. алгоритмом megablast, число находок с e-value < 0,001 - 19
b. алгоритмом blastn с параметрами по умолчанию, число находок с e-value < 0,001 - 19
c. алгоритмом blastn с длиной слова = 7, match/mismatch = 1/-1 число находок с e-value < 0,001 - 92

Выводы: самое низкое число находок в случае алгоритма megablast и blastn по умолчанию, для megablast это объяснимо в связи с параметрами (большая длина слова, больше накладывается условий на точность). В случае алгоритма blastn c длиной слова 7 и match/mismatch = 1/-1 число находок значительно увеличилось, тк. находятся последовательности с меньшей идентичностью и более далекие гомологи.

4*. Сравнение программ BLASTN и MegaBLAST

Если проследить род и семейства бактерий находок, то можно заметить, что они есть и в выдачах blastn, и в megablast, но в выдачах blastn несколько больше видоразнообразия (т.к. более "лояльные" параметры, позволяющие находить довольно далекие гомологи). Если судить по длинам выравниваний, то при переходе к blastn они увеличиваются, что также можно объяснить параметрами программы.