ПРАКТИКУМ 10
Поиск гомологичных белков
В практикуме 7 мной был выбран белок малатдегидрогеназа (ID:MDH_NITEC) бактерии Nitrosomonas eutropha, его АС (Q0AFK6)
использовался мной для поиска гомологичных белков.
Параметры, которые я установил:
Database: Swiss-Prot
Organism: Nitrosomonas exclude, чтобы исключить белки с E-value =0.0
Max target sequences: 1000
Word size: я запускал поиск для нескольких длин с одинаковыми стандартными параметрами. Для длины 6 нашлось 191 записей, для 5 - 174, для 3 - 511 (в приведенном ниже файле длина 5)
Matrix: был проведен поиск для разных матриц, количество записей разнилось в пределах 10%. В конечном итоге выбрана матрица BLOSUM62
Gap Costs: этот параметр мало влиял на вывод, в случае матрицы BLOSUM62 разница в несколько белков, поэтому остановился на базовом варианте existence: 11, extension:1
Остальные параметры оставил без изменения.
Из всего множетсва записей мною были выбраны 7 для сравнения их с первоначальной белковой поледовательностью. Я выбрал белки организмов: Burkholderia lata, Mycobacterium bovis, Arabidopsis thaliana, Homo sapiens, Thermus thermophilu, Phenylobacterium immobile. Все они малатдегидрогиназы, также я выбрал L-лактатдегидрогиназу, принадлежащую Latilactobacillus sakei subsp. sakei
Проанализировав множественное выравнивание, сделанное с помощью команды muscle EMBOSS, можно сделать вывод, что белок, принадлежащий
Phenylobacterium immobile вряд ли является гомологичным, так как выравнивание его относительно остальных последовательностей дает очень низкое покрытие белка, присутсвует только один консервативный участок 133-148,а в остальных положениях стоят гэпы.
Кроме того, выделяется человеческая последовательность, из-за наличия в ней большого количества инсерций. Однако, в последовательности присутсвует много участков, схожих с белками у других организмов, так что с большой вероятностью они все гомологичны между собой.
Консервативные участки находятся в положениях 132-148, 165-170, 189-200, 263-270, 320-330 и 418-429.
Множественное выравнивание
Гомологи вирусного белка
Мной был выбран полипротеин GAG_MLVRD
ID: GAG_MLVRD
AC: P11269
OS: Radiation murine leukemia virus
Выбранный мною белок: Capsid protein p30, его координаты: 215..477
Белок в fasta
С помощью программы BLAST был произведен поиск гомологичных белков.
База, выбранная для поиска - Swiss-Prot, параметр word size я изменял, но при всех вариантах получил идентичные результаты.
Остальные параметры остались без изменения.
Результат работы BLAST
Для множественного выравнивания с помощью команды muscle мной были выбраны белки с АС: P03334; P0DOH6; P03330; Q9TTC1; P03337; P29175; P0DOG9
Множественное выравнивание
Проанализировав множественное выравнивание, можно сделать вывод, что ,скорее всего, эти полипротеины гомологичны.
Высокая степень консервативности обнаруживается в позициях 1-100, где в исходной последовательности располагается белок Matrix protein p15,
а также в позициях 130-133, 163-177,223-224 и 253-328, последние два участка соответсвуют выбранному нами белку Capsid protein p30.
Сильнее других выделяется полипротеин с АС: Q9TTC1, в сравнение с другими последовательностями он явно имеет в своем составе дополнительные белки.
В свою очередь полипротеины P29175, P0DOG9 и P03337 наоборот короче остальных последовательностей, что сведетельсвтует о меньшем количестве белков в их полипротеине.
Зависимость E-value от объема банка
Мной был произведен идентичный поиск гомологичных белков для Capsid protein p30, но добавлен поиск только по таксону Viruses.
Количество результатов не изменилось, но значение E-value стало другим. К примеру для последовательности с АС: P0DOH2 в общем поиске значение E-value = 2e-109, а в поиске только по вирусам = 1e-110.
Основываясь на этом различие мы можем оценить долю вирусных белков в Swiss-Prot.
Воспользуемся данной формулой:
Так как параметры S, m, K и -λ не зависят от того, среди каких организмов проводить поиск, то сократим их, получается, что значение E-value в нашем случае зависит только от размера базы данных.
Тогда доля вирусных белко = 1e-110/2e-109 = 0,05 * 100 = 5%.
Доля вирусных белков приблизительно равна 5%.