Практикум 10: Поиск гомологов с помощью BLAST

1. Гомологи белка Bifunctional NAD(P)H-hydrate repair enzyme

Ранее в практикуме 7 я анализировала Bifunctional NAD(P)H-hydrate repair enzyme. Для того чтобы найти его гомологов, при запуске BLAST были использованы следующие параметры:

Параметр Значение
База данныхUniProtKB/Swiss-Prot (swissprot)
ОрганизмНет ограничений
Программа / режимblastp (protein-protein BLAST)
Максимум отображаемых последовательностей250
Автонастройка параметров для коротких запросовВключена
Порог E-value0.05
Word size5
Макс. совпадений в области запроса0
Матрица заменBLOSUM62
Штрафы за гэпыОткрытие гэпа: 11, расширение гэпа: 1
Корректировка на аминокислотный составconditional compositional score matrix adjustment
ФильтрНе используется
МаскированиеНе используется

По данному запросу было найдено 157 записей.

Текстовая запись выдачи BLAST

Для множественного выравнивания были взяты первые пять последовательностей с наименьшим E-value. После, по аналогии с практикумом 9, было осуществлено множественное выравнивание в программе Jalview.

проект в Jalview

Согласно результатам множественного выравнивания, все выбранные белки являются гомологичными: в выравнивании присутствуют консервативные участки, что видно на примере столбцов 61–67, 134–140, 395–400 и 481–489. Данные выравнивания также хорошо соотносятся с результатами работы BLAST. Так, E-value для соответствующих последовательностей не превышают 3×10⁻⁷⁶, процент идентичности составляет не менее 32,11%, процент покрытия — не менее 98%, а также наблюдается высокий Max Score. Исходя из этого можно достаточно уверенно предположить гомологию данных белков.

2. Гомологи гликопротеина N вируса Puumala virus (strain Sotkamo/V-2969/81)

Для того чтобы найти подходящий вирус, был использован следующий запрос в UniProt: (taxonomy_id:10239) AND (protein_name:polyprotein) AND (reviewed:true). Был выбран Puumala virus (strain Sotkamo/V-2969/81) с ID GP_PUUMS, AC P27312; I4EPA4. Для анализа был выбран белок Glycoprotein N (начало: 24, конец: 658).

После с помощью средств EMBOSS последовательность зрелого белка была вырезана в отдельный fasta-файл. Ссылка на файл (fasta)

Далее были проделаны аналогичные действия, что и с последовательностью белка.

Текстовая запись выдачи BLAST

Количество находок: 19

проект в Jalview

На основе множественного выравнивания можно сделать вывод, что все выбранные последовательности гомологичны по всей длине. Что также согласуется с выдачей BLAST для данных последовательностей, а именно высокими значениями веса выравнивания, идентичности и покрытия.

3. Исследование зависимости E-value от объёма банка

При повторении предыдущего запроса с теми же параметрами BLAST, но с добавлением фильтра по организмам, количество находок не изменилось, и E-value у большинства тоже осталось неизменным (0.0), за исключением одного белка Q8JSZ3, у которого значение данного параметра изменилось с 0.019 на 8e-0.4.

Текстовая запись выдачи BLAST

Таким образом, исходя из формулы E-value, можно сделать вывод, что доля вирусных белков составляет около 4,21% от всех белков Swiss-Prot.