Практикум 10. Программа BLAST

Гомологи заданного белка в Swiss-Prot

В этом практикуме продолжается работа с белком дегидрогеназа D-2-гидроксикарбоновых кислот (Uniprot ID Q2VEQ7). Для поиска в BLAST были использованы параметры по умолчанию:

Параметр Значение
Query sequence Q2VEQ7
Database UniprotKB/Swiss-Prot(swissprot)
Algorithm blastp
Max target sequences 100
Expect threshold 0.05
Matrix BLOSUM62
Gap costs Existence: 11 Extension: 1
Compositional adjustments Conditional compositional score matrix adjustment
Filter Low complexity regions

Скачать файл в формате .txt с выдачей можно по ссылке.

Рассмотрим выдачу подробнее. Идентичность выровненных участков не превышает 50 %, покрытие варьриуется сильнее - от 34 % до 83 % (исключая исходный белок). Мною были выбраны белки, отсортированные по убыванию e-value выравнивания, за исключением белков с отметкой Uncharactirized protein в поле RecName. С помощью команды muscle -in Q2VEQ7_sequences.txt -out Q2VEQ7_alignment.fasta было сделано множественное выравнивание 7 белков из выдачи и исходного белка.

Наиболее обширный в выравнивании участок с высокой идентичностью аминокислотных остатков имеет приблизительные координаты 225-327. Наиболее вероятно, что этот участок отвечает за каталитическую функцию этих ферментов. На основании сходства аминокислот в нем и других участках исключить негомологичные белки не получится. Можно заметить, что 2 белка (3-фосфоглицератдегидрогеназы) имеют обширный невыровненный относительно других последовательностей участок, в том числе относительно исходного белка, однако на основании очень низки значений e-value и наличия обширного консервативного участка можно говорить о гомологии представленных в выравнивании белков.

Проект Jalview можно скачать по ссылке

Гомологи вирусного полипротеина

Выбрала полипротеин с ID POLG_AEVL2, AC Q6WQ42, принадлежащий вирусу птичьего энцефаломиелита (Avian encephalomyelitis virus (strain L2Z) (AEV)). Из него был выбран зрелый белок - протеаза 3C (Protease 3C) с координатами 1434-1648. Файл в формате .fasta с ее последовательностью можно скачать по ссылке.

Используя аналогичные предыдущему заданию параметры произвела поиск в blastp. Текстовую выдачу сервиса можно скачать здесь, а проект выравнивания в Jalview можно скачать по ссылке. Из выравнивания я удалила белок с AC Q9DSN9.1. Во-первых, его аминокислотные остатки часто не совпадают с таковыми в оставшихся четырех белках в выравнивании. Во-вторых, в нескольких участках выравнивания только у него наблюдаются индели (например, позиции 1458-1465, 1557-1566 и т.д.). В-третьих, наблюдаем большое значение e-value относительно остальных находок.

Исследование зависимости E-value от объёма банка

При ограничении таксона изменилось количество находок (было 15, стало 17), а также e-value всех находок, в том числе исходной. Для оценки процента последовательностей в банке, которые принадлежат вирусам, поделила изменившееся при поиске по вирусам e-value (9*10^(-4)) на исходное (0.021), так как e-value - по сути, вероятность, для полипротеина с идентификатором Q9DSN9.1. Решила взять полипротеин с максимальным найденным e-value, так как в его случае погрешность будет меньше. Таким образом, процент вирусных белков в базе данных Swiss-Prot примерно равен 4.29 %.