BLAST

Гомологи белка 3GBR

Для поиска гомологов белка 3GBR в программе BLAST были использованы следующие параметры: 1000 последовательностей в максимальном размере выдачи, порогом E-value стало значение 0.05, параметр Word Size равный 3. Для выравнивания была выбрана матрица аминокислотных замен BLOSUM62 с штрафами за открытие и продолжение гэпа равными 11 и 1 соответственно.

В выдаче работы программы BLAST в Swiss-Prot при заданных параметраз было найдено 738 последовательностей (см. текстовая выдача программы)

Для дальнейшего множественного выравнивания были выбраны Bifunctional protein GlmU следующих бактерий: Thioalkalivibrio sulfidiphilus HL-EbGr7 (AC B8GRB6.1), Nitratiruptor sp. SB155-2(AC A6Q403.1), Novosphingobium aromaticivorans DSM 12444 (AC Q2G929.2), Serratia proteamaculans 568 (AC A8G7N0.1), Methanococcus aeolicus Nankai-3 (AC A6VG23.1). Так как исходный белок выполняет две функции, были также выбраны белки, которые имеют только один функциональный домен из двух искомого белка у организмов: Caulobacter vibrioides NA1000 (AC B8GWR3.1) c UDP-ацетилглюкозамин ацилтрансферазой и Caenorhabditis briggsae (AC Q61S97.2) с альфа-субъединицей маннозо-1-фосфат гуанилтранферазой.

По алгоритму из практикума 9 было выполнено множественное выравнивание в программе Muscle в Jalview.

Исходя из результатов множественного выравнивания (см.файл проекта в Jalview) можно сказать что все белки GlmU гомологичны, а также не бифункциональные белки имеют гомологию с искомым. Наиболее консервативной частью последовательности является С-конец, начиная с 318 позиции выравнивания с некоторыми вариативными участками (Участки наибольшей идентичности: 10-45, 110-120, 160-170, 183-187, 318-321, 329-335, 339-349, 354-371, 379-395, 398-417, 434-471). Также гомология для GlmU подтверждается низкими значениями E-value и высоким процентом покрытия. В белках, которые выполняют одну из функций можно заметить значительные делеции участков в середине цепи.

Гомологи вирусного белка, вырезанного из полипротеина

В результате поискового запроса в базе данных UniProtKB (taxonomy_id:2732397) AND (protein_name:polyprotein) AND (reviewed:true), где был выбран таксон Pararnavirae найдено 479 белков. Среди них был выбран белок ID GAG_MLVFF (Gag protein) из вируса OS Friend murine leukemia virus (isolate FB29) (FrMLV) и AC P26806

Для последующего анализа был выбран белок Matrix protein p15 с координатами 132..215 в полипротеине.

С помощью EMBOSS была вырезана последовательность соответствующая зрелому белку матрикса вируса и записана в fasta-файл.

При поиске в BLAST были использованы аналогичные параметры из первой части практикума было получено 35 записей (см.выдача BLAST). Из этих записей было выбраны следующие последовательности: P11227.2, Q7SVK7.2, P03334.3, P08361.2, P03333.3. После удаления последовательности перед выравниванием белка и после выравнивания искомого белка, выравнивание показывает высокий показатель идентичности на этом участке, что определенно говорит о гомологии этого белка (.проект Jalview). Также эти выводы подтверждаются значениями E-Value и идентичностью из BLAST.

Исследование зависимости E-value от объёма банка

Выдачи не отличаются размером при повторении поиска из преыдущей части и установке фильтра на таксономическое положение, при этом уменьшается значение E-value, потому что поиск производится уже по более узкой выборке последовательностей. То есть E-value зависит от размера базы данных, что также следует из теоремы Карлина, и с помощью этой разницы можно прикинуть процент вирусных записей в базе данных, потому что остальные параметры не изменяются. Соответственно, если разделить значения E-value у фильтрованной выдачи и нефельтрованной, то получится около 0.033 или 3.3%.

Таблица 1. Значения E-value.
Protein IDFiltered E-valueUnfiltered E-value
P23090.37e-092e-07
P03336.31e-243e-23
P29167.32e-276e-26
P0DOH0.18e-392e-37
P26806.31e-504e-49