Практикум 11. Программа BLAST

В данном практикуме был выполнен поиск гомологов дегидрогеназы монооксида углерода (UniProt ID COOS2_CARHZ), которой также было посвящено 1-е задание практикума 8, и зрелого вирусного белка из практикума 9 при помощи программы BLAST, а также проведено исследование зависимости E-value от объёма банка.

Поиск гомологов дегидрогеназы монооксида углерода в Swiss-Prot

В качестве запроса использовался AC исследуемого белка: Q9F8A8. Параметры поиска:

Query: Q9F8A8
Database: swissprot
Organism: -
Algorithm: blastp
Max target sequences: 100
Short queries: true
Word size: 6
Max matches in a query range: 0
Matrix: BLOSUM62
Gap costs: Existence 11 Extension 1
Compositional adjustments: Conditional compositional score matrix adjustment
Filter: -
Mask: -

Результат работы программы здесь.

Всего было найдено 20 последовательностей. Среди всех находок были выбраны следующие: Q8Q0L5.1 (COOS1_METMA), O28429.1 (COOS_ARCFU), Q58138.2 (COOS_METJA), Q8TXX3.1 (COOS_METKA), Q57617.2 (ACDA_METJA), O27502.2 (HCP_METTH), Q8TJC6.1 (ACDA2_METAC). Для них были при помощи программы seqret были получены последовательности, после чего было проведено множественное выравнивание при помощи программы muscle. После этого полученное выравнивание было импортировано в Jalview с целью установить гомологичность найденных белков исследуемому (ссылка на проект здесь).

Рисунок 1. Исходное выравнивание

Можно заметить, что белки COOS1_METMA, COOS_ARCFU, COOS_METJA и COOS_METKA однозначно гомологичны исходному COOS2_CARHZ (нижние 5 последовательностей на рисунке 1); об этом свидетельствуют достаточно многочисленные консервативные участки (будут указаны ниже). Насчёт гомологичности оставшихся 3 белков вышеупомянутой группе возникают сомнения: они отличаются по длине, по структуре (5 гомологичных белков, согласно Swiss-Model, являютя гомодимерами, а ACDA_METJA и ACDA2_METAC - мономерами; правда, для HCP_METTH информации по структуре найдено не было), имеют процент идентичности COOS2_CARHZ менее 25%, условно консервативные участки имеют длину в 1-2 аминокислотных остатка (однако, иногда такие одинаковые участки расположены достаточно близко друг от друга, перемежаясь 1 или несколькими различными остатками, например, участок 571-584; в связи с этим я не могу исключить гомологичность как минимум ACDA_METJA и ACDA2_METAC белкам вышеупомянутой группы).

Исключим из выравнивания HCP_METTH, ACDA_METJA и ACDA2_METAC и рассмотрим оставшиеся белки.

Рисунок 2. Выравнивание после исключения вероятно негомологичных белков

На этот раз можно видеть консервативные участки длиной до 5 а. о.: 65-69, 245-249, 544-548; наблюдаются и более длинные, но более прерывистые схожие участки, например, 79-92, 615-622. Кроме того, количество и длина инделей заметно сократились по сравнению с исходным выравниванием.

Поиск гомологов РНК-направленной РНК-полимеразы вируса MERS в Swiss-Prot

Данный белок является частью полипротеина (AC: K9N7C7, UniProt ID: R1AB_CVEMC) с координатами [5311:5908]. Параметры BLAST остались теми же, что и в предыдущем задании, за исключением запроса, который в данном случае представлял собой белковую последовательность, полученную в практикуме 9.

Результат работы программы здесь.

Было найдено 48 последовательностей; из них выбраны следующие: P0C6W4.1 (R1AB_BCHK5), P0C6X7.1 (R1AB_CVHSA), P0C6Y0.1 (R1AB_CVMJH), P0C6Y3.1 (R1AB_IBVM), Q008X6.1 (R1AB_WBV24). Далее для них были проделаны те же действия, что и для белков из предыдущего задания. Проект Jalview можно скачать здесь.

Рисунок 3. Выравнивание вирусных белков

Из рисунка 3 видно, что 4 белка (R1AB_BCHK5, R1AB_CVHSA, R1AB_CVMJH и R1AB_IBVM) совпадают с исходным на большей части своей длины и, безусловно, гомологичны ему, тогда как 5-й белок (R1AB_WBV24) значительно отличается от них, однако всё же у него имеются консервативные участки длиной до 7 а. о. (287-293, 381-383, 407-412, 448-452, 545-549), и, вероятно, он также гомологичен R1AB_CVEMC.

Исследование зависимости E-value от объёма банка

Для этой цели BLAST был запущен ещё раз с теми же параметрами, что и в предыдущем задании, за исключением:

Organism: Viruses (taxid:10239)

Таким образом, благодаря фильтру по организмам, который теперь отбирает только вирусные белки, объём банка последовательностей, который участвует в расчёте E-value, был уменьшен. В таблице 1 представлены некоторые из последовательностей, E-value которых изменилось.

Таблица 1. Изменение E-value при уменьшении размера банка
E-value 1 (без фильтра) E-value 2 (с фильтром) E-value 2 / E-value 1
Q008X6.1 2e-11 1e-12 0.05
P0C6V8.1 4e-08 2e-09 0.05
P04867.1 1.5 0.063 0.042
Среднее: 0.047

Из формулы E-value = mn*e^-B следует, что для одной и той же последовательности при одинаковых параметрах поиска m 2 / m 1 = E-value 2 / E-value 1, т. е. отношение суммарных длин последовательностей в двух банках равно отношению E-value для какой-либо последовательности, которую BLAST выдал как результат по одному и тому же запросу в этих банках. Таким образом, возможно оценить долю, занимаемую последовательностями вирусных белков в Swiss-Prot; она равна приблизительно 4,7%.