Нуклеотидный BLAST

Определение функции и таксономии нуклеотидной последовательности

Для определения функции и таксаномии нуклеотидной последовательности был выбран алгоритм blastn, так как это чувствительность этого алгоритма, позволит получить находки в случае неконсерватевности исследуемой последовательности. По этой же причине был выбран наименьший размер слова

Выдача BLAST res1.txt

Табл. 1. Параметры запуска BLAST
Параметр Значение
Database nr/nt
Programblastn
Max target sequences100
Expext theshold0.05
Wordsize 7
Max matches in a query range 0
Match/Mismatch Scores 1,-3
Gap Costs Existense:5 Extension:2

Аденин

Рис. 1. Последовательностей с наибольшим Max score.

Все найденые последовательности кодирую гистон H3, вероятно и исследуемая последовательность кодирует это же белок. Так же 10 находок с наибольшим скором(рис.1) принадлежат голотуриям, однако для более точной таксаномической идентификации были использованы возможности раздела Distance tree of results (Max Seq Difference = 0.1) (Рис.2). Можно видеть что исследуемая последовательность почти наверняка относится к отряду Dendrochirotida, наиболее близка к роду Psolus и возножно даже принадлижит виду Psolus phantus


Аденин

Рис. 2. Дерево растояний.

Поиск генов белков в неаннотированной нуклеотидной последовательности

Для поиска генов белков был выбран контиг из Wallemia mellicola. Так как по нуклеотдной последоваетльности нужно найти белок, была использована разновидность BLASTx. Чтобы сократить время работы алгоритма был оставлен максимальный размер слова, поиск производился по белкам из базы данных Swiss-Prot, принадлежащих к базидиомицетам, но не к роду Wallemia, чтобы избежать тривиальных находок.

Выдача BLAST доступна по ссылке res2.txt
Табл. 1. Параметры запуска BLAST
Параметр Значение
Database UniProtKB/Swiss-Prot(swissprot)
Organism Wallemia(exclude), Basidiomycota
Programblastx
Max target sequences10
Expext theshold0.05
Wordsize 6
Max matches in a query range 0
MatrixBLOSUM62
Gap Costs Existense:11 Extension:1

По результатам можно предположить, что в контиге присутствует ген, кодирующий фактор сплайсинга пре-мРНК CLF1. Об этом говорит то, что выдаче присутствуют три последовательности, которые почти полностью покрываются исследуемым контигом.

Интепретация карты локального сходства гомологичных хромосом двух бактерий

Для сравнения были выбраны 2 бактерии рода Thermatoga: T.pertophila (геном) и T.naphthophila (геном). Для построения карты локального сходства использовался megablast с длинной слова 256(остальные параметры по умолчанию). В результате была получена карта локального сходства, представленная на рис.3. На ней по горизонтали отложен геном T.naphthophila, а по вертикали - T.petrophila. Эта карта демонстрирует 3 инверсии на участках: 150K-580K, 580K-1040K, 1040K-1160K.

Аденин

Рис. 3. Карта локального сходства.