BLAST

ГОМОЛОГИ БЕЛКА THLA_CLOAB (P45359) В SWISS-PROT

При запуске программы BLAST были использованы следующие параметры: 500 последовательностей в качестве максимального размера выдачи, 0.05 в качестве порога на Е-value, размер слова был установлен равным 5. Для выравнивания была выбрана матрица замен BLOSUM62 со штрафами 11 и 1 за открытие и продление гэпа соответственно.

В результате работы BLAST в Swiss-Prot с учетом заданных параметров было найдено 267 последовательностей (см. текстовую выдачу программы).

Для скачивания в fasta-формате были выбраны находки ацетил-КоА-ацетилтрансфераз Clostridioides difficile 630 (AC Q18AR0.1), Pseudomonas aeruginosa PAO1 (AC Q9I2A8.1), Syntrophomonas wolfei subsp. wolfei str. Goettingen G311 (Q0AVM3.1), Haemophilus influenzae Rd KW20 (P44873.1), Allochromatium vinosum DSM 180 (P45369.2) и Paracoccus denitrificans (P54810.1O).

По аналогии с практикумом 9 было построено множественное выравнивание последовательности выбранного белка и отобранных находок, которое затем было загружено в Jalview.

Согласно результатам множественного выравнивания (см. проект Jalview), все из выбранных белков гомологичны (хорошо прослеживается паттерн гомологии, а также присутствует множество консервативных участков с высокой идентичностью, что четко видно на примере многих столбцов, в частности, 88-93, 158-167, 247-260, 317-328, 349-371, 381-390). Данные выравнивания также хорошо соотносятся со значениями E-value для соответствующих последовательностей: для трех из них оно в результате работы BLAST равнялось машинному нулю, а для трех других - 5е-178, 5е-175 и 2е-172, что вкупе с высоким (99-100%) процентом покрытия, Max Score и процентом идентичности (от 61%) явно говорит о гомологии.

ГОМОЛОГИ ЗРЕЛОГО ВИРУСНОГО БЕЛКА, ВЫРЕЗАННОГО ИЗ ПОЛИПРОТЕИНА, В SWISS-PROT

С использованием запроса (taxonomy_id:11632) AND (protein_name:polyprotein) AND (reviewed:true) в UniProt был выбран белок с ID GAG_FLV, AC P10262 и OS Feline leukemia virus.

Для анализа был взят зрелый белок с названием RNA-binding phosphoprotein p12 и координатами 128..197 в полипротеине.

Средствами EMBOSS последовательность зрелого белка была вырезана в отдельный fasta-файл.

После аналогичных первому разделу практикума действий в BLAST было получено 40 последовательностей (см. результаты выдачи). Из них были выбраны последовательности с ID P03337.2, P0DOH1.1, P10262.3, P10273.2, P04322.2. Аналогично первому разделу был получен проект выравнивания (см. проект Jalview). После удаления букв находок, находящихся по обе стороны от исходного зрелого белка, ясно видно, что оставшиеся фрагменты полностью гомологичны (за исключением двух стобцов с низкой идентичностью). Такие выводы, опять же, подтверждаются результатами работы BLAST с высоким процентом идентичности (от 97%) и покрытием (100%).

ИССЛЕДОВАНИЕ ЗАВИСИМОСТИ E-VALUE ОТ ОБЪЕМА БАНКА

При повторении предыдущего поиска с теми же параметрами BLAST, но с применением фильтра по организмам для ограничения поиска вирусами список находок изменился: число находок увеличилось с 40 до 46. Также у некоторых находок изменилось E-value (см. таблицу 1).

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Sequence AC E-value non-filtered E-value filtered
P03337.2 1e-38 5e-40
P0DOH1.1 2e-38 8e-40
P10262.3 5e-38 2e-39
P10273.2 6e-38 3e-39

Поскольку E-value зависит от веса выравнивания, длины исходной последовательности, размера базы данных и констант, имеющих отношение только к параметрам вычисления веса, то можно заключить, что в наших условиях (где менялся лишь размер выборки, в которой мы искали схожие последовательности) согласно теореме Карлина отношение E-value будет равняться отношению размеров выборок поиска. Таким образом, поскольку в среднем E-value в выборке с фильтром и без отличаются в 0.045 раз, то доля вирусных белков в Swiss-Prot составляет около 4.5%.