В этом практикуме продолжается работа с белком дегидрогеназа D-2-гидроксикарбоновых кислот (Uniprot ID Q2VEQ7). Для поиска в BLAST были использованы параметры по умолчанию:
Параметр | Значение |
Query sequence | Q2VEQ7 |
Database | UniprotKB/Swiss-Prot(swissprot) |
Algorithm | blastp |
Max target sequences | 100 |
Expect threshold | 0.05 |
Matrix | BLOSUM62 |
Gap costs | Existence: 11 Extension: 1 |
Compositional adjustments | Conditional compositional score matrix adjustment |
Filter | Low complexity regions |
Скачать файл в формате .txt с выдачей можно по ссылке.
Рассмотрим выдачу подробнее. Идентичность выровненных участков не превышает 50 %, покрытие варьриуется сильнее - от 34 % до 83 % (исключая исходный белок). Мною были выбраны белки, отсортированные по убыванию e-value выравнивания, за исключением белков с отметкой Uncharactirized protein в поле RecName. С помощью команды muscle -in Q2VEQ7_sequences.txt -out Q2VEQ7_alignment.fasta
было сделано множественное выравнивание 7 белков из выдачи и исходного белка.
Наиболее обширный в выравнивании участок с высокой идентичностью аминокислотных остатков имеет приблизительные координаты 225-327. Наиболее вероятно, что этот участок отвечает за каталитическую функцию этих ферментов. На основании сходства аминокислот в нем и других участках исключить негомологичные белки не получится. Можно заметить, что 2 белка (3-фосфоглицератдегидрогеназы) имеют обширный невыровненный относительно других последовательностей участок, в том числе относительно исходного белка, однако на основании очень низки значений e-value и наличия обширного консервативного участка можно говорить о гомологии представленных в выравнивании белков.
Проект Jalview можно скачать по ссылке
Выбрала полипротеин с ID POLG_AEVL2, AC Q6WQ42, принадлежащий вирусу птичьего энцефаломиелита (Avian encephalomyelitis virus (strain L2Z) (AEV)). Из него был выбран зрелый белок - протеаза 3C (Protease 3C) с координатами 1434-1648. Файл в формате .fasta с ее последовательностью можно скачать по ссылке.
Используя аналогичные предыдущему заданию параметры произвела поиск в blastp. Текстовую выдачу сервиса можно скачать здесь, а проект выравнивания в Jalview можно скачать по ссылке. Из выравнивания я удалила белок с AC Q9DSN9.1. Во-первых, его аминокислотные остатки часто не совпадают с таковыми в оставшихся четырех белках в выравнивании. Во-вторых, в нескольких участках выравнивания только у него наблюдаются индели (например, позиции 1458-1465, 1557-1566 и т.д.). В-третьих, наблюдаем большое значение e-value относительно остальных находок.
При ограничении таксона изменилось количество находок (было 15, стало 17), а также e-value всех находок, в том числе исходной. Для оценки процента последовательностей в банке, которые принадлежат вирусам, поделила изменившееся при поиске по вирусам e-value (9*10^(-4)) на исходное (0.021), так как e-value - по сути, вероятность, для полипротеина с идентификатором Q9DSN9.1. Решила взять полипротеин с максимальным найденным e-value, так как в его случае погрешность будет меньше. Таким образом, процент вирусных белков в базе данных Swiss-Prot примерно равен 4.29 %.