практикум №10

BLAST

Поиск гомологов и параметры BLAST


1. Гомологи белка в Swiss-Prot

Фермент протеаза Lon бактерии Photobacterium ganghwense является автоматически аннотированным белком (unreviewed, TrEMBL). Не обратив внимания на подсказки, я попробовала запустить BLAST, используя ID последовательности. Программой были выданы последовательности с высоким E-value, а длина выравнивания составляла всего 9 аминокислот.

Таким образом, поиск проводился по самой последовательности. Параметры BLAST стандартные, выбрана база данных Swiss-Prot и максимальное количество последовательностей в выдаче 250, так как при выдаче 100 все последовательности имеют E-value 0.0.

Параметры поиска:

В результате поиска было найдено 243 последовательности. Текстовая выдача программы по ссылке.

Для множественного выравнивания с референсным белком были выбраны следующие 6 гомологов, имеющие наименьшие ненулевые значения E-value:

  1. Q6AS16.1  Lon protease 1                            Desulfotalea psychrophila LSv54
  2. Q5PQY6.1  Lon protease homolog 2, peroxisomal       Danio rerio
  3. Q00WL5.2  Lon protease homolog, mitochondrial       Ostreococcus tauri
  4. O04979.2  Lon protease homolog 2, peroxisomal       Spinacia oleracea
  5. Q3SX23.1  Lon protease homolog 2, peroxisomal       Bos taurus
  6. Q3MIB4.2  Lon protease homolog 2, peroxisomal       Rattus norvegicus

Множественное выравние было выполнено с помощью программы muscle на kodomo, редактирование в программе Jalview. Выравнивание всех белков выборки имело длинные индели, обусловленные п-тями 3 и 4, принадлежащие одноклеточной зеленой водоросли и шпинату соответственно.

Рис. 1
Рис. 1. участки 36-107 и 175-205 а-ка

После удаления п-тей 3, 4 и перевыравнивания в Jalview оставшихся п-тей гомология просматривается лучше. На самом деле, просится удалить и п-ть 1, но такое действие лишь позволит избавиться от инделей на N-конце и хвоста гэпов на C-конце. К тому, же это единственная другая бактерия кроме реферсной (Photobacterium ganghwense), и она имеет гомологию по инделям в данном выравнивании. Таким образом, можно говорить о более высоком сходстве белка Q6AS16.1 с референсным (A0A0J1GZ86_9GAMM).

проект Jalview

В остальном, все пять пос-тей имеют сходные участки: 398-406, 435-440, 476-479, 481-491, 496-499, 524-529, 580-585,763-769, 789-794. В структуре протеазы Lon выделяют два домена: Lon N-terminal и Lon proteolytic, последний включает в себя два активных сайта. О гомологии N-концевого домена данных белков судить трудно, а вот каталитический домен (591-772 для референса и примерно 643-827 для гомологов) выравниваются достаточно хорошо. То есть между данными белками наблюдается гомология.

2. Гомологи зрелого вирусного белка, вырезанного из полипротеина

В качестве объекта для второго задания выбран полипротеин Gag-Pro Т-лимфотропного вируса человека 2 (HTLV-2).

ID AC OS Protein existence Annotation score Status
PRO_HTLV2 P03353 Human T-cell leukemia virus 2 (HTLV-2) Evidence at protein level 5/5 reviewed/Swiss-Prot

Данный полипротеин разрезается на шесть зрелых белков (как указано на странице Uniprot, в FT указано 5 chains и 1 peptide). Выбранный пептид - капсидный белок p24 (Capsid protein p24, локализация 137-350), образующий сферическое ядро вируса, которое инкапсулирует геномный комплекс РНК-нуклеокапсид. Данный белок необходим для формирования зрелого капсида и важен для инфекционности и сборки вирионов. Исходя из ключевой роли капсидного белка р24 в жизненном цикле вируса можно преположить, что его гомологи будут иметь высокую степень консервативности. С помощью команды

seqret 'sw:PRO_HTLV2[137:350]' segment.fasta
и последующего редактирования названия в nano, получаем файл с вырезанной посл-ю данного белка.

хочется отметить, что для поиска гомологов необязательно вырезать п-ть белка из полипротеина командами EMBOSS. Запустить BLAST для chain можно прямо со страницы UniProt (ведь по условию белок хорошо аннотирован).

С помощью BLAST (параметры см. п.1) было найдено 40 гомологов. Текстовая выдача по ссылке.

Для построения множественного выравнивания с капсидным белком p24 были выбраны следующие 5 последовательностей, имеющие наименьшие E-value и индентичность меньше 100% (т.е. за исключением полипротеинов Human T-lymphotropic virus 2, чтобы на выравнивании было на что смотреть):

  1. P14076.3  Gag polyprotein;  Human T-cell lymphotrophic virus type 1 (Caribbean isolate)
  2. Q09T00.3  Gag polyprotein;  Human T-cell leukemia virus 3 (strain Pyl43)
  3. P03345.3  Gag polyprotein;  Human T-cell lymphotrophic virus type 1 (strain ATK)
  4. Q0R5R4.3  Gag polyprotein;  HTLV-3 strain 2026ND
  5. P14077.3  Gag polyprotein;  Human T-cell lymphotrophic virus type 1 (isolate MT-2)

Множественное выравнивание было выполнено Jalview Muscle с настройками по умолчанию. Поскольку белок выравнивается на целые полипептиды, необходимо отрезать концевые участки, не выровненные с целевой последовательностью.

проект Jalview

Все шесть белков выравнивания гомологичны, поскольку имеют протяженные участки идентичных амк-т, а участки между ними по большей части состоят из схожих амк-т. Результаты подтверждают предположение о высокой степени гомологии капсидных белков Т -лимфотропных вирусов человека.

3. Исследование зависимости E-value от объёма банка

3.1 При запуске BLAST на поиск гомологов капсидного белка р24 среди вирусов (organism: Viruses (taxid:10239)) получено 29 результатов, то есть можно судить о том, что большинство гомологов данного белка принадлежат вирусным организмам, но не ограничиваются ими. Текстовая выдача программы по ссылке.

3.2 Для оценки доли вирусных белков в Swiss-Prot рассмотрим последовательность 1 (AC P14076.3). E-value изменился от 2*10-135 на 8*10-137. Теорема С. Карлина связывает длину исходной последовательности и размер базы данных (как суммарная длина всех последовательностей) через константы. Из этой теоремы следует, что доля вирусных белков в БД будет равна отношению E-value с ограничением/E-value по всем, то есть по данным для P14076.3 в Swiss-Prot доля вирусных белков составляет 2*10-135 / 8*10-137, то есть 0,04 или 4%.