BLAST

Поиск гомологов белка

Для поиска гомологов белка SFMCT_SYNFM была запущена программа BLAST. Параметры, использованные при запуске программы описаны в табл. 1.

Табл. 1. Параметры BLAST
AC Database Algorithm
A0LNN5 UniProtKB/SwissProt blastp (protein-protein BLAST)
General parameters
Max target sequences Expect threshold Word size
100 0.05 6
Scoring parameters
Matrix Gap costs Compositional adjustments
BLOSUM62 Existence:11 Extension: 1 Conditional compositional score matrix adjustment

Файл с текстовой выдачей программы доступен по ссылке.

В результате было выдано 33 последовательности, включая изначальную. Из них было выбрано 7 последовательностей с наибольшим весом. С помощью программы Muscle было проведено выравнивание и выгружено в Jalview. Проект доступен по ссылке. Выбранные белки оказались действительно гомологичны, выравнивание подтверждает высокие значения веса и процента идентичности, которые были выданы программой BLAST. Однако в выравнивании выделяются белки с наименьшей гомологией - SFMCT_SYNFM и MOT12_RAT. Это объясняется тем, что SFMCT_SYNFM - специфический переносчик лактата и многие участки его последовательности отклоняются от последовательностей других белков семейства монокарбоксилатных переносчиков. MOT12_RAT также относится к этому семейству, но его функции немного отличаются от функций MCT13, поэтому в последовательности можно обнаружить несовпадения. Наиболее гомологичны последовательности MCT13 разных позвоночных, что вполне логично.

Гомологи зрелого вирусного белка, вырезанного из полипротеина

Для выполнения задания был выбран известный вирус Severe acute respiratory syndrome coronavirus 2 (2019-nCoV) (SARS-CoV-2) (ID: R1AB_SARS2, AC: P0DTD1).

Из записи о полипротеине (поле CHAIN) был выбран зрелый белок - РНК-направленная РНК полимераза, координаты: 4393-5323. Остальные данные о белке и выравнивания представлены в табл. 2. Для выравнивания были выбраны 7 белков с наибольшим весом, в результате видно, что последовательности действительно гомологичны (на протяжении всего зрелого белка последовательности представляют собой плюс-блок).

Табл. 2. Данные о зрелом белке
Последоваельность белка
Выдача BLAST
Jalview проект

Исследование зависимости E-Value от объема банка

В результате применения фильтра по организмам (Viruses) в выравнивании количество подобранных последовательностей увеличилось на 2 (добавились 2 последовательности с маленьким весом). Также у некоторых последовательностей поменялось значение E-Value, например, у белка R1AB_CVRSD (AC: Q9WQ77) значение E-Value поменялось с 4e-164 на 2e-165. Так как никакие параметры, кроме E-Value не поменялись, мы можем посчитать долю вирусных белков в Swissprot (n) по уравнению:

Значение E-value пропорционально доле вирусных белков в банке, значит, эта доля будет равна (2*10^(-165))/(4*10^(-164))*100=5%.