Практикум 13. BLAST.

Поиск гомологов продукта гена fabV бактерии Treponema denticola.

Выдача программы в текстовом файле доступна по ссылке. Для дальнейшей работы из результатов поиска я выбрал следующие AC: A5FE91.1, Q11W68.1, A6H0N4.1, C0QVH0.1, Q15YQ7.1 - эти белки были выравнены с исходным с помощью muscle и затем импортированы в Jalview(проект).

По наличию большого количества консервативных участков (столбцы 1-20, 46-131, 139-261, 273-324, 334-395; всего столбцов 406) я сделал вывод о том, что все белки - гомологичны.

Параметры поиска BLAST указаны в таблице 1.

Таблица 1. Параметры поиска BLAST
Accession numberAAS11092.1
DatabaseUniProtKB/Swiss-Prot(swissprot)
Organismbacteria (taxid:2)
Algorithmblastp (protein-protein BLAST)
Expect threshold0.05
Word size3
MatrixBLOSUM62
Gap costs Existence: 11 Extension: 1
Compositional adjustmentsAAS11092.1
FilterLow complexity regions

В качестве таксона я выбрал bacteria, так как при введении в поле Organism отдела Spirochaetes BLAST выдавал только 2 результата, один из которых - исходный белок.

Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина

Я выбрал полипротеин вируса Human astrovirus-8. Информация о нем представлена в таблице 2.

Выбранный зрелый белок был вырезан из полипротеина командой seqret, сохранен в .fasta формате и для него был запущен BLAST со такими же параметре, как в предыдущем пункте, но без фильтра по организмам (выдача BLAST). Для дальнейшей работы из результатов поиска я выбрал следующие AC: Q9JH66.2, Q80KJ7.2, Q9JGF2.1, Q9ILI5.2, Q9JH69.3 - эти белки были выравнены с исходным с помощью muscle и затем импортированы в Jalview(проект).

Вывод: консервативные участки в выравнивании присутствуют (столбцы 28-45, 80-161, 177-285 и т.д.), следовательно, белки гомологичны.

Таблица 2. Информация о полипротеине вируса Human astrovirus-8, взятая из UniProt
ACQ9IFX2
IDNS1AB_HASV8
ГенORF1
Рекомендуемое названиеNon-structural polyprotein 1AB
Информация о выбранном зрелом белке
НазваниеRNA-directed RNA polymerase p57
Координаты915..1417

Зависимость E-value от размера банка

Был проведен BLAST для того же вирусного белка, но на этот раз был использован фильтр по организмам - только viruses (taxid:10239)

Таблица 3. Разность в значении E-value для белка Q9JH66.2
Без фильтра на организмы3e-165
Только вирусы1e-166

Таблица показывает следущее свойство: чем больше размер банка, тем больше вероятность получить случайный результат с таким же или лучшим весом выравнивания (прочие параметры BLAST одинаковы). Доля вирусных белков в Swiss-Prot: 1e-166/3e-165 = 0.033 (3.3%)