Главная | Семестры | Проекты | Заметки | О себе | Полезные ссылки |
1. Поиск организма по фрагменту нуклеотидной последовательности
Заданный нуклеотидный фрагмент:
>19 cttccgaaaatttggttacgcagttgtcgaattttttgaaagaaaatatcagttttccaa attatggagtggatggagataacgacattttatcgttccatgctgtcatcatttctcttc gcttgttgaagaggtctcctctacgataagcggcttccactttgtcactgatggtatgtg ccaaagccatttcggccacctctcctgggtagtcagtttcttccgcagcccagtctcgaa aagtggagcgcaagccatggacggtcacgtcctttgtacccgctgcactgtgaagggctt
Организм: Acetobacter pasteurianus
AC записи RefSeq: NC_017108
Координаты фрагмента в записи: 1145-1444
Он является некодирующим (возможно, туда залез кусочек фаговой интегразы на комплементарной цепи)
2. Поиск гомолога белка человека в слоне
Название организма: Loxodonta africana
Идентификатор белка: Q9BZ67 (FRMD8_HUMAN)
Найдено 3 хита. У самой лучшей находки:
e-value: 2E-135
Длина выравнивания: 398
Identity: 88%
Координаты найденного гена: 4096009<-4094259
Количество интронов: 1
Используемый файл с нуклеотидной последовательностю. Можно отметить, что 3 хита располагаются на одной контиге supercontig:loxAfr3:scaffold_71:1:11040415:1 REF, однако, между ними приличные расстояния, что не позволяет с легкостью объединить их в один ген. Тем не менее, только небольшая часть последовательности mRNA выравнивается с геномом слона, что говорит о том, что все-таки 3 находки стоит объединить. Тогда получаем координаты 4101790<-4088177, количество интронов - 5.
110->486 538->935 1052->1521 4101790<-4096489 4096009<-4094259 4092036<-4088177
А теперь поищем по белковой последовательности. Получаем 2 хита. Это лучше, чем для нуклеотидной последовательности.
e-value: 3E-144
Длина выравнивания: 290
Identity: 85%
Координаты найденного гена: 4100152<-4090947
Количество интронов: 5
По результатм можно объединить 2 хита в один ген.
3. Поиск некодирующих последовательностей программой BLAST
AC генома: AP009389 (найден с помощью SRS)
Бактерия: Pelotomaculum_thermopropionicum
Порядок: Clostridiales
Последовательность сериновой тРНК:
>AP009389 AP009389.1 Pelotomaculum thermopropionicum SI DNA, complete genome. ggaggggtgtccgagcggtttaaggaggcggtcttgaaaaccgttgggctcttgcgggtc ccgtgggttcgaatcccaccccctccgcca
Поиск осуществлялся по базе Nucleotide collection (nr/nt).
a. алгоритмом megablast, число находок с e-value < 0,001 - 19
b. алгоритмом blastn с параметрами по умолчанию, число находок с e-value < 0,001 - 19
c. алгоритмом blastn с длиной слова = 7, match/mismatch = 1/-1 число находок с e-value < 0,001 - 92
Выводы: самое низкое число находок в случае алгоритма megablast и blastn по умолчанию, для megablast это объяснимо в связи с параметрами (большая длина слова, больше накладывается условий на точность). В случае алгоритма blastn c длиной слова 7 и match/mismatch = 1/-1 число находок значительно увеличилось, тк. находятся последовательности с меньшей идентичностью и более далекие гомологи.
4*. Сравнение программ BLASTN и MegaBLAST
Если проследить род и семейства бактерий находок, то можно заметить, что они есть и в выдачах blastn, и в megablast, но в выдачах blastn несколько больше видоразнообразия (т.к. более "лояльные" параметры, позволяющие находить довольно далекие гомологи). Если судить по длинам выравниваний, то при переходе к blastn они увеличиваются, что также можно объяснить параметрами программы.