Для поиска был использован blastn с алгоритмом megablast, так как он оптимален для поиска близких гомологов. На рис.1 приведены находки с наибольшим весом. Запрос - консенсусной последовательности из 6 практикума
Ссылка на консенсусную последовательность: 39-F
Ссылка на множественное выравнивание выбранных находок: Alignment
По результатам выравнивания можно сказать, что последовательности гомологичны, так как имеют консервативные участки
рис.1
На рис.2 приведена общая таксономия
рис.2
Сложно сказать, какому именно организму принадлежит данная последовательность, поэтому предположим род Elachista (taxid:315910) (далее возьму порядок Lepidoptera (taxid:7088))
Параметры
Параметры/Алгоритмы | Megablast | Blastn (по умолчанию) | Blastn (чувствительный) |
Word size | 28 | 11 | 7 |
Match/mismatch scores | 1;-2 | 2;-3 | 1;-4* |
*Для Gordonia при любых значениях параметра match/mismatch_scores и word_size=[7] всегда 0 находок
Результаты
Таксоны/Алгоритмы | Megablast | Blastn (по умолчанию) | Blastn (чувствительный) |
Lepidoptera (taxid:7088) | 59 | 30 | 58 |
Gordonia (taxid:2053) | 12 | 13 | 0 |
Таким образом выбор алгоритма blast оказывает небольшое влияние на выдачу значимых находок.
Большинство находок было обнаружено с помощью megablast, blastn для вирусной CDS добавил незначительную находку (маленький процент покрытия).
Чувствительный blastn для консенсусной последовательности также добавил незначительные находки с покрытием ~60% (рис.3)
рис.3
Белки: актин, обратная транскриптаза, тубулин (В-цепь). Данные получены из UniProt
Параметры/Белки | Актин | Обратная транскриптаза | Тубулин |
Количество находок | 16 | 2 | 6 |
Лучшая находка | scaffold-444 | scaffold-17 | unplaced-665 |
Score лучшей находки | 1912 | 35 | 1970 |
Identity лучшей находки | 93% | 28% | 85% |
E-value лучшей находки | 0 | 0.032 | 0 |
Количество гэпов | 0 | 14 | 22 |
Итог | Гомологичен | Не гомологичен | Гомологичен |
Порядок выполнения команд:
makeblastdb -in X5.fasta -dbtype nucl -out 1x_db
tblastn -query ACT1_DICDI.fasta -db 1x_db -out 1a.ready
tblastn -query rs.fasta -db 1x_db -out 1r.ready
tblastn -query TBB5_HUMAN.fasta -db 1x_db -out 1t.ready
В результате тубулин (coverage 96%) и актин (coverage 99%) оказались намного более консервативны, чем обратная транскриптаза (coverage 37%) (это может быть связано с функциями, которые выполняют белки)
Для выполнения задания был выбран scaffold25
Параметры blastx (рис.4)
рис.4
Результаты поиска (рис.5)
рис.5
По полученным данным можно предположить, что в скэффолде содержится ген, кодирующий белок железо-серный белок (iron–sulfur protein). Обычно такие белки являются активными центрами ферментов и играют важную роль в переносе электронов (обычно при низких уровнях окислительно-восстановительного потенциала)