Для поиска гомологов белка 3GBR в программе BLAST были использованы следующие параметры: 1000 последовательностей в максимальном размере выдачи, порогом E-value стало значение 0.05, параметр Word Size равный 3. Для выравнивания была выбрана матрица аминокислотных замен BLOSUM62 с штрафами за открытие и продолжение гэпа равными 11 и 1 соответственно.
В выдаче работы программы BLAST в Swiss-Prot при заданных параметраз было найдено 738 последовательностей (см. текстовая выдача программы)
Для дальнейшего множественного выравнивания были выбраны Bifunctional protein GlmU следующих бактерий: Thioalkalivibrio sulfidiphilus HL-EbGr7 (AC B8GRB6.1), Nitratiruptor sp. SB155-2(AC A6Q403.1), Novosphingobium aromaticivorans DSM 12444 (AC Q2G929.2), Serratia proteamaculans 568 (AC A8G7N0.1), Methanococcus aeolicus Nankai-3 (AC A6VG23.1). Так как исходный белок выполняет две функции, были также выбраны белки, которые имеют только один функциональный домен из двух искомого белка у организмов: Caulobacter vibrioides NA1000 (AC B8GWR3.1) c UDP-ацетилглюкозамин ацилтрансферазой и Caenorhabditis briggsae (AC Q61S97.2) с альфа-субъединицей маннозо-1-фосфат гуанилтранферазой.
По алгоритму из практикума 9 было выполнено множественное выравнивание в программе Muscle в Jalview.
Исходя из результатов множественного выравнивания (см.файл проекта в Jalview) можно сказать что все белки GlmU гомологичны, а также не бифункциональные белки имеют гомологию с искомым. Наиболее консервативной частью последовательности является С-конец, начиная с 318 позиции выравнивания с некоторыми вариативными участками (Участки наибольшей идентичности: 10-45, 110-120, 160-170, 183-187, 318-321, 329-335, 339-349, 354-371, 379-395, 398-417, 434-471). Также гомология для GlmU подтверждается низкими значениями E-value и высоким процентом покрытия. В белках, которые выполняют одну из функций можно заметить значительные делеции участков в середине цепи.
В результате поискового запроса в базе данных UniProtKB (taxonomy_id:2732397) AND (protein_name:polyprotein) AND (reviewed:true), где был выбран таксон Pararnavirae найдено 479 белков. Среди них был выбран белок ID GAG_MLVFF (Gag protein) из вируса OS Friend murine leukemia virus (isolate FB29) (FrMLV) и AC P26806
Для последующего анализа был выбран белок Matrix protein p15 с координатами 132..215 в полипротеине.
С помощью EMBOSS была вырезана последовательность соответствующая зрелому белку матрикса вируса и записана в fasta-файл.
При поиске в BLAST были использованы аналогичные параметры из первой части практикума было получено 35 записей (см.выдача BLAST). Из этих записей было выбраны следующие последовательности: P11227.2, Q7SVK7.2, P03334.3, P08361.2, P03333.3. После удаления последовательности перед выравниванием белка и после выравнивания искомого белка, выравнивание показывает высокий показатель идентичности на этом участке, что определенно говорит о гомологии этого белка (.проект Jalview). Также эти выводы подтверждаются значениями E-Value и идентичностью из BLAST.
Выдачи не отличаются размером при повторении поиска из преыдущей части и установке фильтра на таксономическое положение, при этом уменьшается значение E-value, потому что поиск производится уже по более узкой выборке последовательностей. То есть E-value зависит от размера базы данных, что также следует из теоремы Карлина, и с помощью этой разницы можно прикинуть процент вирусных записей в базе данных, потому что остальные параметры не изменяются. Соответственно, если разделить значения E-value у фильтрованной выдачи и нефельтрованной, то получится около 0.033 или 3.3%.
| Protein ID | Filtered E-value | Unfiltered E-value |
|---|---|---|
| P23090.3 | 7e-09 | 2e-07 |
| P03336.3 | 1e-24 | 3e-23 |
| P29167.3 | 2e-27 | 6e-26 |
| P0DOH0.1 | 8e-39 | 2e-37 |
| P26806.3 | 1e-50 | 4e-49 |