Blast. Поиск по сходству.

Третий семестр Главный сайт



Задание 1

Бласт выдал множество очень похожих находок. Это, впрочем, неудивительно, так как это судя
по всему это ген 18S рРНК полихеты Saccocirrus tridentiger, а гены рРНК весьма консервативны.
Лучшая находка того же рода. На одно совпадение меньше, чем сам Saccocirrus tridentiger.
0.6 замен на 100 п.н.
Лучшая находка того же семейства, но другого рода. 
3.8 замен на 100 п.н.
Выравнивание против полного гена (остальные против фрагмента)
4.9 замен на 100 п.н.

Задание 2

Последовательность

BLASTN
Из-за консервативности рРНК бласт может выровнять огромное множество (возможно даже все) рРНК 
одного типa друг с другом. Поэтому поиск был проведен в пределах подкласса Polychaeta incertae sedis (taxid:1649654)
Находок: 106
E-value и сходство для худших находок: 3.5, 94%

Discontiguous megablast
Количество находок то же самое, но находки другие. Например нет худшей находки из прошлого бласта.
Находок: 106
E-value и сходство для худших находок: 2e-154, 80%

Megablast
Количество находок уменьшилось на одну, но при этом 5 худших из 
Discontiguous megablast-а остались.
Находок: 105
E-value и сходство для худших находок: 2e-131, 81%

В целом из-за крайнего сходства последовательностей рРНК различий оказалоь очень мало. 
Однако стои упомянуть, что blastn находит короткие перекрывания в отличие от других, 
что megablast по сравнению с Discontiguous megablast берет более короткие, но лучше выравниваемые участки, 
зачастую заметно укорачивая выравнивания ради однопроцентной прибавки к идентичности

Задание 3

HSP7C_HUMAN
Белок теплового шока, шаперон, компонент саплайсосомы. 
15 находок, 12 гомологов
Параметры лучшей находки:
Query cover: 94%, E-value: 0.0,	Ident: 87%
Вероятно такое разнообразие связано с тем, что белок выполняет довольно распространенную
функцию. В клетке много белков теплового шока и шапернов. Кроме того некоторые из находок -
изоформы одного и того же белка.

TERT_HUMAN
Теломераза, ответственная за обратную транскрипцию субъединица.
2 находки, 0 гомологов
Параметры лучшей находки:
Query cover: 3%, E-value: 8.1,	Ident: 38%
Результат очень странен, ведь у дрозофил конечно есть теломераза.

CISY_HUMAN
Митохондриальная цитратсинтаза.
19130 находок(!) (11 нормальных), 3 гомолога
Параметры лучшей находки:
Query cover: 92%, E-value: 0.0,	Ident: 74%
Из-за наличия распространенных доменов (например сайта связывания CoA), 
очень многие белки могут быть частично выровнены. Но в большинстве своем это
и близко не гомологи (только 11 находок имеют Evalue меньше 10). В данном случае
сбились настройки бласта, и он выдал E-value до 200000.

RPB1_HUMAN
Каталитическая субъединица ДНК-зависимой РНК-полимеразы 2.
15 находок, 3 гомолога
Параметры лучшей находки:
Query cover: 99%, E-value: 0.0,	Ident: 70%
Гомологи - та же субъединица, аналогичная субъединица в РНК-полимеразе 1 и неизвестный белок.

PABP2_HUMAN
Необходимый для полиаденелирования пре-мРНК белок.
44 находки, 1 гомолог
Параметры лучшей находки:
Query cover: 62%, E-value: 8e-77, Ident: 63%
Множество находок обусловлено тем, что в белке есть консервативный поли-А-связующий домен,
занимающий четверть его длины. Все находки имеют этот домен.

Задание 4

Была составлена база данных из полных геномов пяти вирусов:
Bean golden mosaic virus  NC_004042.1
Tomato rugose mosaic virus  AF291705.1
Macroptilium yellow vein virus JN419021.1
Soybean chlorotic spot virus  JX122965.1
Sida golden mosaic Honduras virus Y11097.1
Затем при помощи команд
tblastx -query viri.fasta -db viri.fasta -out blast.out -outfmt 7
python revise_blast_7.py -i blast.out -s 25 -l 50 -e 0.01 -o virus.xls
была получена таблица 
ссылка
которая была затем отсортирована по сумме произведений процента идентичности на длину перекрывания.
(ниже таблица отсортирована по этим суммам, считавшимся для каждой пары)
Результат (по убыванию):
JN419021.1	NC_004042.1
AF291705.1	NC_004042.1
AF291705.1	JN419021.1
JX122965.1	NC_004042.1
AF291705.1	Y11097.1
JN419021.1	JX122965.1
NC_004042.1	Y11097.1
NC_004042.1	Y11097.1
JN419021.1	Y11097.1
JX122965.1	Y11097.1
AF291705.1	JX122965.1




=======================================================

Сайт находится в стадии разработки


© 2014 Рюмин Константин