Задание 1. Нахождение гомологов белка Bgat
Я открыл сайт protein Blast, в поле для белка Бета-галактозидазы Thermus brockianus ввёл его AC: Q9X6C6; установил поиск белков по базе SwissProt; параметры алгоритма оставил по умолчанию:
-Максимальное число найденных последовательностей: 100
-Порог на E-value, меньше которого будут выдаваться последовательности: 0.05
-Длина слова 5
-Матрица: BLOSUM62
-Штраф за открытие гэпа 11; штраф за продолжение 1
-Композиционные корректировки (для борьбы с участками малой сложности): conditional compositional score matrix adjustment
После выполнения команды в Blast (Текстовая выдача) было обнаружено 29 находок, я решил рассмотреть только первые 25 из них, чей E-value был меньше 2e-63. Все белки оказались бета-галактозидазами. Затем я перешёл в графу Taxonomy, чтобы поискать интересные находки:
-Archae (2 организма);
-Actinomycetes (4 организма) - тип граммположительных бактерии с высоким содержание GC-пар нуклеотидов;
-Firmicutes (15 организмов) - тип бактерий с низким содержанием GC-пар нуклеотидов;
-Род Thermus (4 организма) - граммотрицательные бактерии
Для выравнивания я решил взять исходный организм Thermus brockianus, а также близкородственный ему Thermus thermophilus; две археи: Haloferax volcanii DSM 14919 и Halorubrum lacusprofundi ATCC 49239; одного из актиномицетов c самым маленьким E-value Arthrobacter sp.; и одного Firmicutes с самым маленьким E-value Geobacillus kaustophilus
Я считаю, что все белки в данном выравнивании (проект Jalview) гомологичны и имеют общее происхождение, однако белки бета-галактозидазы Thermus brockianus (граммотрицательная бактерия), Thermus thermophilus (граммотрицательная бактерия), Halorubrum lacusprofundi ATCC 49239 (архея) и Haloferax volcanii DSM 14919 (архея) имеют большее сходство по сравнению с белками Geobacillus kaustophilus (граммположительная бактерия) и Arthrobacter sp. (граммположительная бактерия).
Несмотря на то, что бактерии должны быть эволюционно ближе друг к другу, чем к археям. Белок бета-галактозидазы Thermus brockianus гораздо ближе к архейным белкам, нежели к бактериальным. Это скорее всего связано с тем, что археи, как и бактерии рода Thermus, являются термофилами, живущими при очень высокой температуре, что и может объяснить причину схожести данных белков.
Можно также заметить, что конец белков крайне малоконсервативен - в особенности это касается белка Halorubrum lacusprofundi ATCC 49239, у которого вставлен дополнительный огромный аминокислотный фрагмент; начала белков ещё более или менее одинаковые, хотя граммположительные бактерии сильно отличаются наличием дополнительных вставочных участков), а кроме того в выравнивании есть участок из 15 аминокислот где-то в середине (315-329 позиции), где наблюдается аномально низкое число совпадений аминокислот, хотя до и после этого участка наблюдаются консервативные участки.
Задание 2. Гомология взрослого вирусного белка
ID полипротеина вируса: POL_SRV1
AC полипротеина вируса: P04025
Название полипротеина вируса: Gag-Pro-Pol polyprotein
Название вируса: Simian retrovirus SRV-1 (ретровирус у азиатских макак, вызывает иммунодефицит)
Белок из полипротеина: Reverse transcriptase/ribonuclease H
В Swiss-prot я решил выбрать полипротеин какого-нибудь ретровируса и вырезать при помощи команды seqret из него цепь, соответствующую обратной транскриптазе. Таким образом я получил последовательность цепи "Reverse transcriptase/ribonuclease H" с 913-ой по 1497-ую аминокислоту полипротеина вируса Simian retrovirus SRV-1. Также дал последовательности нормальное название при помощи программы nano.
После чего я загрузил аминокислотную последовательность в формате FASTA в BlastP. Все параметры сделал по умолчанию, только установил базу данных Swiss-Prot и увеличил кол-во находок до 500. После завершения работы программы BlastP было обнаружено 138 находок (Tекстовая выдача). Из них большая часть принадлежат семейству Retroviridae (121), роду Lentivirus (75); некоторые белки принадлежат животным, в чей геном встроились вирусные нуклеиновые последовательности и стали кодировать белки. Из всех находок я выбрал 8:
-Изначальный белок вируса Simian retrovirus 1 (P04025.2)
-Полипротеины близкородственных вирусов с большим весом выравнивания и низким E-value: Simian retrovirus 2 (P51517.2) и Mason-Pfizer monkey virus (P07572.2).
-Эндогенные вирусные последовательности в человеке (Q9UQG0.2)
-Mouse intracisternal A-particle MIA14 (P11368.1) - представляют собой дефектные эндогенные ретровирусы, накапливающиеся в ЭПР грызунов.
-Полипротеин вируса лейкоза птиц (Avian leukosis virus - Q7SQ98.2)
-Полипротеины вируса иммунодефицита кошек (Feline immunodeficiency virus (isolate TM2) - P31822.1) и вирус иммунодефицита (Human immunodeficiency virus type 2 - P04584.3)
Затем скачал белки в FASTA-формате, импортировал их в Jalview (проект Jalview) и там же при помощи Web Service провёл выравнивание в Muscle со стандартными настройками. Затем удалил все буквы в выравнивании левее первой буквы исходного белка (удалены 1-963 позиции в выравнивании), а также все буквы в выравнивании правее последней буквы белка (удалены 1710-2107 позиции в выравнивании).
Как и ожидалось белки близкородственных ретровирусов обезьян оказались очень схожи между собой, однако по выравниванию можно заметить, что белки Simian retrovirus 1 и Mason-Pfizer monkey virus больше схожи друг с другом, нежели с Simian retrovirus 2.
По выравниванию очевидно, что белки гомологичны (так как, во-первых, обладают большим процентом сходста, во-вторых, большинство консервативных цсатков располагаются на одинаковом расстоянии друг от друга) и имеют много консервативных участков на позициях: 24, 35-36, 37, 41-42, 44, 48, 56, 67-68, 72, 74, 76, 82-83, 85, 87, 89, 92, 102, 104, 106, 111, 120-121, 124, 127, 129-131 и т.д.
Низкой консервативностью обладают участки на позициях 299-400, 411-464, 535-582; на конце также можно наблюдать огромную вставку у вируса иммунодефицита кошек на позициях выравнивания 603-735.
При запуске программы BlastP при тех же параметрах, но только по вирусам, выдало 126 находок вместо 138. То есть 12 находок принадлежало не вирусам, а каким-то другим организмом, скорее всего это были вирусные последовательности, встроившиеся в геном какого-то организма(в моём случае дрозофила или человека).
Сравним значения E-value при двух поисках у 3-ёх каких-нибудь вирусов:
Mouse intracisternal A-particle MIA14 | 2*10^-173 | 9*10^-175
Feline immunodeficiency virus (isolate TM2) | 4*10^-44 | 2*10^-45
Hepatitis B virus adw/Indonesia/PIDW420 | 0.039 | 0.002
Первое значение соответствует запросу Blastp для всех организмов, второе значение соответствует запросу Blastp только для вирусов.
У нас есть формула: E-value=E-value=Kmn·e^-λS; где n-это размер базы данных. И только он меняется при поиске по разным группам. При первом запросе Blastp по всем организмам значения E-value больше, чем при втором запросе только по вирусам. Значит база данных при запросе по всем организмам больше, чем при запросе только по вирусам.
У 1-го организма значения E-value различаются в 22.22 раза, у 2-го в 20 раз, у 3-го в 19.5 раз. То есть в среднем E-value при поиске по всем организмам больше E-value при поиске только по вирусам в 20,6 раз. То есть n(всего)/n(вирусы)=20.6 раз; n(вирусы)=n(всего)/20.6=4.85% - это доля вирусных белков