Практикум 10. Программа BLAST


1.1 Поиск гомологов моего белка в Swissprot

В этом практикуме я опять работаю с белком альфа субъединица часть 1 НАД(Ф)-трансгидрогеназы (NAD(P) transhydrogenase subunit alpha part 1) (UniProt entry: Q2RSB2).

Параметры запуска BLAST

Enter Query Sequence: AAA62493.1
Databases: Standard databases (nr etc.)
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)

Max target sequences: 100
Short queries: Automatically adjust parameters for short input sequences
Expect threshold: 0.05
Word size: 6
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension: 1
Compositional adjustments: Conditional compositional score matrix adjustment
Filter: Low complexity regions

Остальные поля оставила пустыми.

Текстовая выдача программы


1.2 Множественное выравнивание

Выравнивание создано в Jalview с помощью MuscleWS. Я не обнаружила последовательности, которую можно было бы назвать негомологичной остальным. У исследуемых последовательностей присутствует большое количество высоко консервативных участков. Даже последовательность, принадлежащая человеку, которая сильно отличается от других своей длиной (почти в 3 раза длинне бактериальных и в 2 раза длиннее вирусной), разделяет с состальными почти все эти участки (единичные замены в основном синонимичны).

Проект Jalview с множественным выравниванием


2.1 Вирусный полипротеин

ID: R1AB_SARS2
AC: P0DTD1
Название вируса: Severe acute respiratory syndrome coronavirus 2 (2019-nCoV) (SARS-CoV-2)
Белок: Proofreading exoribonuclease nsp14
Координаты: 5926..6452

Последовательность зрелого белка


2.2 Запуск BLAST с вирусным белком

Параментры запуска те же, что в первом задании.

Текстовая выдача программы

Проект Jalview с множественным выравниванием

Судя по выравниванию, белки имеют большой процент высоко консервативных участков и, вероятно, все они гомологичны друг другу.


3 Исследование зависимости E-value от объёма банка

количество находок после применения поиска только у вирусов не поменялось (33 находки). Это говорит о том, что белок встречается только у вирусов. Согласно формуле Карлина (E-value=Kmn·e-λS) между E-value и размером базы данных существует линейная зависимость. Значение e-value находки P0C6V8.1 поменялось с 3e-05 на 1e-06, т.е. доля вирусных белков в Swissprot составляет 3,33%.