Программа Blast

Задание 1. Нахождение гомологов белка Bgat

Я открыл сайт protein Blast, в поле для белка Бета-галактозидазы Thermus brockianus ввёл его AC: Q9X6C6; установил поиск белков по базе SwissProt; параметры алгоритма оставил по умолчанию:

-Максимальное число найденных последовательностей: 100

-Порог на E-value, меньше которого будут выдаваться последовательности: 0.05

-Длина слова 5

-Матрица: BLOSUM62

-Штраф за открытие гэпа 11; штраф за продолжение 1

-Композиционные корректировки (для борьбы с участками малой сложности): conditional compositional score matrix adjustment

После выполнения команды в Blast (Текстовая выдача) было обнаружено 29 находок, я решил рассмотреть только первые 25 из них, чей E-value был меньше 2e-63. Все белки оказались бета-галактозидазами. Затем я перешёл в графу Taxonomy, чтобы поискать интересные находки:

-Archae (2 организма);

-Actinomycetes (4 организма) - тип граммположительных бактерии с высоким содержание GC-пар нуклеотидов;

-Firmicutes (15 организмов) - тип бактерий с низким содержанием GC-пар нуклеотидов;

-Род Thermus (4 организма) - граммотрицательные бактерии

Для выравнивания я решил взять исходный организм Thermus brockianus, а также близкородственный ему Thermus thermophilus; две археи: Haloferax volcanii DSM 14919 и Halorubrum lacusprofundi ATCC 49239; одного из актиномицетов c самым маленьким E-value Arthrobacter sp.; и одного Firmicutes с самым маленьким E-value Geobacillus kaustophilus

Я считаю, что все белки в данном выравнивании (проект Jalview) гомологичны и имеют общее происхождение, однако белки бета-галактозидазы Thermus brockianus (граммотрицательная бактерия), Thermus thermophilus (граммотрицательная бактерия), Halorubrum lacusprofundi ATCC 49239 (архея) и Haloferax volcanii DSM 14919 (архея) имеют большее сходство по сравнению с белками Geobacillus kaustophilus (граммположительная бактерия) и Arthrobacter sp. (граммположительная бактерия).

Несмотря на то, что бактерии должны быть эволюционно ближе друг к другу, чем к археям. Белок бета-галактозидазы Thermus brockianus гораздо ближе к архейным белкам, нежели к бактериальным. Это скорее всего связано с тем, что археи, как и бактерии рода Thermus, являются термофилами, живущими при очень высокой температуре, что и может объяснить причину схожести данных белков.

Можно также заметить, что конец белков крайне малоконсервативен - в особенности это касается белка Halorubrum lacusprofundi ATCC 49239, у которого вставлен дополнительный огромный аминокислотный фрагмент; начала белков ещё более или менее одинаковые, хотя граммположительные бактерии сильно отличаются наличием дополнительных вставочных участков), а кроме того в выравнивании есть участок из 15 аминокислот где-то в середине (315-329 позиции), где наблюдается аномально низкое число совпадений аминокислот, хотя до и после этого участка наблюдаются консервативные участки.

Задание 2. Гомология взрослого вирусного белка

ID полипротеина вируса: POL_SRV1

AC полипротеина вируса: P04025

Название полипротеина вируса: Gag-Pro-Pol polyprotein

Название вируса: Simian retrovirus SRV-1 (ретровирус у азиатских макак, вызывает иммунодефицит)

Белок из полипротеина: Reverse transcriptase/ribonuclease H

В Swiss-prot я решил выбрать полипротеин какого-нибудь ретровируса и вырезать при помощи команды seqret из него цепь, соответствующую обратной транскриптазе. Таким образом я получил последовательность цепи "Reverse transcriptase/ribonuclease H" с 913-ой по 1497-ую аминокислоту полипротеина вируса Simian retrovirus SRV-1. Также дал последовательности нормальное название при помощи программы nano.

После чего я загрузил аминокислотную последовательность в формате FASTA в BlastP. Все параметры сделал по умолчанию, только установил базу данных Swiss-Prot и увеличил кол-во находок до 500. После завершения работы программы BlastP было обнаружено 138 находок (Tекстовая выдача). Из них большая часть принадлежат семейству Retroviridae (121), роду Lentivirus (75); некоторые белки принадлежат животным, в чей геном встроились вирусные нуклеиновые последовательности и стали кодировать белки. Из всех находок я выбрал 8:

-Изначальный белок вируса Simian retrovirus 1 (P04025.2)

-Полипротеины близкородственных вирусов с большим весом выравнивания и низким E-value: Simian retrovirus 2 (P51517.2) и Mason-Pfizer monkey virus (P07572.2).

-Эндогенные вирусные последовательности в человеке (Q9UQG0.2)

-Mouse intracisternal A-particle MIA14 (P11368.1) - представляют собой дефектные эндогенные ретровирусы, накапливающиеся в ЭПР грызунов.

-Полипротеин вируса лейкоза птиц (Avian leukosis virus - Q7SQ98.2)

-Полипротеины вируса иммунодефицита кошек (Feline immunodeficiency virus (isolate TM2) - P31822.1) и вирус иммунодефицита (Human immunodeficiency virus type 2 - P04584.3)

Затем скачал белки в FASTA-формате, импортировал их в Jalview (проект Jalview) и там же при помощи Web Service провёл выравнивание в Muscle со стандартными настройками. Затем удалил все буквы в выравнивании левее первой буквы исходного белка (удалены 1-963 позиции в выравнивании), а также все буквы в выравнивании правее последней буквы белка (удалены 1710-2107 позиции в выравнивании).

Как и ожидалось белки близкородственных ретровирусов обезьян оказались очень схожи между собой, однако по выравниванию можно заметить, что белки Simian retrovirus 1 и Mason-Pfizer monkey virus больше схожи друг с другом, нежели с Simian retrovirus 2.

По выравниванию очевидно, что белки гомологичны (так как, во-первых, обладают большим процентом сходста, во-вторых, большинство консервативных цсатков располагаются на одинаковом расстоянии друг от друга) и имеют много консервативных участков на позициях: 24, 35-36, 37, 41-42, 44, 48, 56, 67-68, 72, 74, 76, 82-83, 85, 87, 89, 92, 102, 104, 106, 111, 120-121, 124, 127, 129-131 и т.д.

Низкой консервативностью обладают участки на позициях 299-400, 411-464, 535-582; на конце также можно наблюдать огромную вставку у вируса иммунодефицита кошек на позициях выравнивания 603-735.

Задание 3

При запуске программы BlastP при тех же параметрах, но только по вирусам, выдало 126 находок вместо 138. То есть 12 находок принадлежало не вирусам, а каким-то другим организмом, скорее всего это были вирусные последовательности, встроившиеся в геном какого-то организма(в моём случае дрозофила или человека).

Сравним значения E-value при двух поисках у 3-ёх каких-нибудь вирусов:

Mouse intracisternal A-particle MIA14 | 2*10^-173 | 9*10^-175

Feline immunodeficiency virus (isolate TM2) | 4*10^-44 | 2*10^-45

Hepatitis B virus adw/Indonesia/PIDW420 | 0.039 | 0.002

Первое значение соответствует запросу Blastp для всех организмов, второе значение соответствует запросу Blastp только для вирусов.

У нас есть формула: E-value=E-value=Kmn·e^-λS; где n-это размер базы данных. И только он меняется при поиске по разным группам. При первом запросе Blastp по всем организмам значения E-value больше, чем при втором запросе только по вирусам. Значит база данных при запросе по всем организмам больше, чем при запросе только по вирусам.

У 1-го организма значения E-value различаются в 22.22 раза, у 2-го в 20 раз, у 3-го в 19.5 раз. То есть в среднем E-value при поиске по всем организмам больше E-value при поиске только по вирусам в 20,6 раз. То есть n(всего)/n(вирусы)=20.6 раз; n(вирусы)=n(всего)/20.6=4.85% - это доля вирусных белков