Для поиска гомологов белка SFMCT_SYNFM была запущена программа BLAST. Параметры, использованные при запуске программы описаны в табл. 1.
AC | Database | Algorithm | ||||||
A0LNN5 | UniProtKB/SwissProt | blastp (protein-protein BLAST) | ||||||
General parameters | ||||||||
Max target sequences | Expect threshold | Word size | ||||||
100 | 0.05 | 6 | ||||||
Scoring parameters | ||||||||
Matrix | Gap costs | Compositional adjustments | ||||||
BLOSUM62 | Existence:11 Extension: 1 | Conditional compositional score matrix adjustment |
Файл с текстовой выдачей программы доступен по ссылке.
В результате было выдано 33 последовательности, включая изначальную. Из них было выбрано 7 последовательностей с наибольшим весом. С помощью программы Muscle было проведено выравнивание и выгружено в Jalview. Проект доступен по ссылке. Выбранные белки оказались действительно гомологичны, выравнивание подтверждает высокие значения веса и процента идентичности, которые были выданы программой BLAST. Однако в выравнивании выделяются белки с наименьшей гомологией - SFMCT_SYNFM и MOT12_RAT. Это объясняется тем, что SFMCT_SYNFM - специфический переносчик лактата и многие участки его последовательности отклоняются от последовательностей других белков семейства монокарбоксилатных переносчиков. MOT12_RAT также относится к этому семейству, но его функции немного отличаются от функций MCT13, поэтому в последовательности можно обнаружить несовпадения. Наиболее гомологичны последовательности MCT13 разных позвоночных, что вполне логично.
Для выполнения задания был выбран известный вирус Severe acute respiratory syndrome coronavirus 2 (2019-nCoV) (SARS-CoV-2) (ID: R1AB_SARS2, AC: P0DTD1).
Из записи о полипротеине (поле CHAIN) был выбран зрелый белок - РНК-направленная РНК полимераза, координаты: 4393-5323. Остальные данные о белке и выравнивания представлены в табл. 2. Для выравнивания были выбраны 7 белков с наибольшим весом, в результате видно, что последовательности действительно гомологичны (на протяжении всего зрелого белка последовательности представляют собой плюс-блок).
Последоваельность белка |
Выдача BLAST |
Jalview проект |
В результате применения фильтра по организмам (Viruses) в выравнивании количество подобранных последовательностей увеличилось на 2 (добавились 2 последовательности с маленьким весом). Также у некоторых последовательностей поменялось значение E-Value, например, у белка R1AB_CVRSD (AC: Q9WQ77) значение E-Value поменялось с 4e-164 на 2e-165. Так как никакие параметры, кроме E-Value не поменялись, мы можем посчитать долю вирусных белков в Swissprot (n) по уравнению:
Значение E-value пропорционально доле вирусных белков в банке, значит, эта доля будет равна (2*10^(-165))/(4*10^(-164))*100=5%.