Практикум 11. Программа BLAST
В данном практикуме был выполнен поиск гомологов дегидрогеназы монооксида углерода (UniProt ID COOS2_CARHZ), которой также было посвящено 1-е задание практикума 8, и зрелого вирусного белка из практикума 9 при помощи программы BLAST, а также проведено исследование зависимости E-value от объёма банка.
Поиск гомологов дегидрогеназы монооксида углерода в Swiss-Prot
В качестве запроса использовался AC исследуемого белка: Q9F8A8. Параметры поиска:
Query: Q9F8A8 Database: swissprot Organism: - Algorithm: blastp Max target sequences: 100 Short queries: true Word size: 6 Max matches in a query range: 0 Matrix: BLOSUM62 Gap costs: Existence 11 Extension 1 Compositional adjustments: Conditional compositional score matrix adjustment Filter: - Mask: -
Результат работы программы здесь.
Всего было найдено 20 последовательностей. Среди всех находок были выбраны следующие: Q8Q0L5.1 (COOS1_METMA), O28429.1 (COOS_ARCFU), Q58138.2 (COOS_METJA), Q8TXX3.1 (COOS_METKA), Q57617.2 (ACDA_METJA), O27502.2 (HCP_METTH), Q8TJC6.1 (ACDA2_METAC). Для них были при помощи программы seqret были получены последовательности, после чего было проведено множественное выравнивание при помощи программы muscle. После этого полученное выравнивание было импортировано в Jalview с целью установить гомологичность найденных белков исследуемому (ссылка на проект здесь).
Можно заметить, что белки COOS1_METMA, COOS_ARCFU, COOS_METJA и COOS_METKA однозначно гомологичны исходному COOS2_CARHZ (нижние 5 последовательностей на рисунке 1); об этом свидетельствуют достаточно многочисленные консервативные участки (будут указаны ниже). Насчёт гомологичности оставшихся 3 белков вышеупомянутой группе возникают сомнения: они отличаются по длине, по структуре (5 гомологичных белков, согласно Swiss-Model, являютя гомодимерами, а ACDA_METJA и ACDA2_METAC - мономерами; правда, для HCP_METTH информации по структуре найдено не было), имеют процент идентичности COOS2_CARHZ менее 25%, условно консервативные участки имеют длину в 1-2 аминокислотных остатка (однако, иногда такие одинаковые участки расположены достаточно близко друг от друга, перемежаясь 1 или несколькими различными остатками, например, участок 571-584; в связи с этим я не могу исключить гомологичность как минимум ACDA_METJA и ACDA2_METAC белкам вышеупомянутой группы).
Исключим из выравнивания HCP_METTH, ACDA_METJA и ACDA2_METAC и рассмотрим оставшиеся белки.
На этот раз можно видеть консервативные участки длиной до 5 а. о.: 65-69, 245-249, 544-548; наблюдаются и более длинные, но более прерывистые схожие участки, например, 79-92, 615-622. Кроме того, количество и длина инделей заметно сократились по сравнению с исходным выравниванием.
Поиск гомологов РНК-направленной РНК-полимеразы вируса MERS в Swiss-Prot
Данный белок является частью полипротеина (AC: K9N7C7, UniProt ID: R1AB_CVEMC) с координатами [5311:5908]. Параметры BLAST остались теми же, что и в предыдущем задании, за исключением запроса, который в данном случае представлял собой белковую последовательность, полученную в практикуме 9.
Результат работы программы здесь.
Было найдено 48 последовательностей; из них выбраны следующие: P0C6W4.1 (R1AB_BCHK5), P0C6X7.1 (R1AB_CVHSA), P0C6Y0.1 (R1AB_CVMJH), P0C6Y3.1 (R1AB_IBVM), Q008X6.1 (R1AB_WBV24). Далее для них были проделаны те же действия, что и для белков из предыдущего задания. Проект Jalview можно скачать здесь.
Из рисунка 3 видно, что 4 белка (R1AB_BCHK5, R1AB_CVHSA, R1AB_CVMJH и R1AB_IBVM) совпадают с исходным на большей части своей длины и, безусловно, гомологичны ему, тогда как 5-й белок (R1AB_WBV24) значительно отличается от них, однако всё же у него имеются консервативные участки длиной до 7 а. о. (287-293, 381-383, 407-412, 448-452, 545-549), и, вероятно, он также гомологичен R1AB_CVEMC.
Исследование зависимости E-value от объёма банка
Для этой цели BLAST был запущен ещё раз с теми же параметрами, что и в предыдущем задании, за исключением:
Organism: Viruses (taxid:10239)
Таким образом, благодаря фильтру по организмам, который теперь отбирает только вирусные белки, объём банка последовательностей, который участвует в расчёте E-value, был уменьшен. В таблице 1 представлены некоторые из последовательностей, E-value которых изменилось.
E-value 1 (без фильтра) | E-value 2 (с фильтром) | E-value 2 / E-value 1 | |
---|---|---|---|
Q008X6.1 | 2e-11 | 1e-12 | 0.05 |
P0C6V8.1 | 4e-08 | 2e-09 | 0.05 |
P04867.1 | 1.5 | 0.063 | 0.042 |
Среднее: | 0.047 |
Из формулы E-value = mn*e^-B следует, что для одной и той же последовательности при одинаковых параметрах поиска m 2 / m 1 = E-value 2 / E-value 1, т. е. отношение суммарных длин последовательностей в двух банках равно отношению E-value для какой-либо последовательности, которую BLAST выдал как результат по одному и тому же запросу в этих банках. Таким образом, возможно оценить долю, занимаемую последовательностями вирусных белков в Swiss-Prot; она равна приблизительно 4,7%.