Практикум №8

Нуклеотидный BLAST

Задание №1. Определение таксономии и функции нуклеотидной последовательности

Для поиска был использован blastn с алгоритмом megablast, так как он оптимален для поиска близких гомологов. На рис.1 приведены находки с наибольшим весом. Запрос - консенсусной последовательности из 6 практикума

Ссылка на консенсусную последовательность: 39-F

Ссылка на множественное выравнивание выбранных находок: Alignment

По результатам выравнивания можно сказать, что последовательности гомологичны, так как имеют консервативные участки

res1

рис.1

На рис.2 приведена общая таксономия

res2

рис.2

Сложно сказать, какому именно организму принадлежит данная последовательность, поэтому предположим род Elachista (taxid:315910) (далее возьму порядок Lepidoptera (taxid:7088))

Задание №2. Сравнение трёх алгоритмов BLAST

Параметры

Параметры/Алгоритмы Megablast Blastn (по умолчанию) Blastn (чувствительный)
Word size 28 11 7
Match/mismatch scores 1;-2 2;-3 1;-4*

*Для Gordonia при любых значениях параметра match/mismatch_scores и word_size=[7] всегда 0 находок

Результаты

Таксоны/Алгоритмы Megablast Blastn (по умолчанию) Blastn (чувствительный)
Lepidoptera (taxid:7088) 59 30 58
Gordonia (taxid:2053) 12 13 0

Таким образом выбор алгоритма blast оказывает небольшое влияние на выдачу значимых находок.

Большинство находок было обнаружено с помощью megablast, blastn для вирусной CDS добавил незначительную находку (маленький процент покрытия).

Чувствительный blastn для консенсусной последовательности также добавил незначительные находки с покрытием ~60% (рис.3)

coverage60

рис.3

Задание №3. Наличие гомологов в неаннотированном геноме

Белки: актин, обратная транскриптаза, тубулин (В-цепь). Данные получены из UniProt

Параметры/Белки Актин Обратная транскриптаза Тубулин
Количество находок 16 2 6
Лучшая находка scaffold-444 scaffold-17 unplaced-665
Score лучшей находки 1912 35 1970
Identity лучшей находки 93% 28% 85%
E-value лучшей находки 0 0.032 0
Количество гэпов 0 14 22
Итог Гомологичен Не гомологичен Гомологичен

Порядок выполнения команд:

 makeblastdb -in X5.fasta -dbtype nucl -out 1x_db 
 tblastn -query ACT1_DICDI.fasta -db 1x_db -out 1a.ready 
 tblastn -query rs.fasta -db 1x_db -out 1r.ready 
 tblastn -query TBB5_HUMAN.fasta -db 1x_db -out 1t.ready 

В результате тубулин (coverage 96%) и актин (coverage 99%) оказались намного более консервативны, чем обратная транскриптаза (coverage 37%) (это может быть связано с функциями, которые выполняют белки)

Задание №4. Поиск гена белка в контиге

Для выполнения задания был выбран scaffold25

Параметры blastx (рис.4)

res3

рис.4

Результаты поиска (рис.5)

res3

рис.5

По полученным данным можно предположить, что в скэффолде содержится ген, кодирующий белок железо-серный белок (iron–sulfur protein). Обычно такие белки являются активными центрами ферментов и играют важную роль в переносе электронов (обычно при низких уровнях окислительно-восстановительного потенциала)

Вернуться на главную страницу