Фермент протеаза Lon бактерии Photobacterium ganghwense является автоматически аннотированным белком (unreviewed, TrEMBL). Не обратив внимания на подсказки, я попробовала запустить BLAST, используя ID последовательности. Программой были выданы последовательности с высоким E-value, а длина выравнивания составляла всего 9 аминокислот.
Таким образом, поиск проводился по самой последовательности. Параметры BLAST стандартные, выбрана база данных Swiss-Prot и максимальное количество последовательностей в выдаче 250, так как при выдаче 100 все последовательности имеют E-value 0.0.
Параметры поиска:
В результате поиска было найдено 243 последовательности. Текстовая выдача программы по ссылке.
Для множественного выравнивания с референсным белком были выбраны следующие 6 гомологов, имеющие наименьшие ненулевые значения E-value:
Q6AS16.1 Lon protease 1 Desulfotalea psychrophila LSv54
Q5PQY6.1 Lon protease homolog 2, peroxisomal Danio rerio
Q00WL5.2 Lon protease homolog, mitochondrial Ostreococcus tauri
O04979.2 Lon protease homolog 2, peroxisomal Spinacia oleracea
Q3SX23.1 Lon protease homolog 2, peroxisomal Bos taurus
Q3MIB4.2 Lon protease homolog 2, peroxisomal Rattus norvegicus
Множественное выравние было выполнено с помощью программы muscle на kodomo, редактирование в программе Jalview. Выравнивание всех белков выборки имело длинные индели, обусловленные п-тями 3 и 4, принадлежащие одноклеточной зеленой водоросли и шпинату соответственно.
После удаления п-тей 3, 4 и перевыравнивания в Jalview оставшихся п-тей гомология просматривается лучше. На самом деле, просится удалить и п-ть 1, но такое действие лишь позволит избавиться от инделей на N-конце и хвоста гэпов на C-конце. К тому, же это единственная другая бактерия кроме реферсной (Photobacterium ganghwense), и она имеет гомологию по инделям в данном выравнивании. Таким образом, можно говорить о более высоком сходстве белка Q6AS16.1 с референсным (A0A0J1GZ86_9GAMM).
В остальном, все пять пос-тей имеют сходные участки: 398-406, 435-440, 476-479, 481-491, 496-499, 524-529, 580-585,763-769, 789-794. В структуре протеазы Lon выделяют два домена: Lon N-terminal и Lon proteolytic, последний включает в себя два активных сайта. О гомологии N-концевого домена данных белков судить трудно, а вот каталитический домен (591-772 для референса и примерно 643-827 для гомологов) выравниваются достаточно хорошо. То есть между данными белками наблюдается гомология.
В качестве объекта для второго задания выбран полипротеин Gag-Pro Т-лимфотропного вируса человека 2 (HTLV-2).
ID | AC | OS | Protein existence | Annotation score | Status |
PRO_HTLV2 | P03353 | Human T-cell leukemia virus 2 (HTLV-2) | Evidence at protein level | 5/5 | reviewed/Swiss-Prot |
Данный полипротеин разрезается на шесть зрелых белков (как указано на странице Uniprot, в FT указано 5 chains и 1 peptide). Выбранный пептид - капсидный белок p24 (Capsid protein p24, локализация 137-350), образующий сферическое ядро вируса, которое инкапсулирует геномный комплекс РНК-нуклеокапсид. Данный белок необходим для формирования зрелого капсида и важен для инфекционности и сборки вирионов. Исходя из ключевой роли капсидного белка р24 в жизненном цикле вируса можно преположить, что его гомологи будут иметь высокую степень консервативности. С помощью команды
seqret 'sw:PRO_HTLV2[137:350]' segment.fasta
и последующего редактирования названия в nano, получаем
файл с вырезанной посл-ю данного белка.
хочется отметить, что для поиска гомологов необязательно вырезать п-ть белка из полипротеина командами EMBOSS. Запустить BLAST для chain можно прямо со страницы UniProt (ведь по условию белок хорошо аннотирован).
С помощью BLAST (параметры см. п.1) было найдено 40 гомологов. Текстовая выдача по ссылке.
Для построения множественного выравнивания с капсидным белком p24 были выбраны следующие 5 последовательностей, имеющие наименьшие E-value и индентичность меньше 100% (т.е. за исключением полипротеинов Human T-lymphotropic virus 2, чтобы на выравнивании было на что смотреть):
P14076.3 Gag polyprotein; Human T-cell lymphotrophic virus type 1 (Caribbean isolate)
Q09T00.3 Gag polyprotein; Human T-cell leukemia virus 3 (strain Pyl43)
P03345.3 Gag polyprotein; Human T-cell lymphotrophic virus type 1 (strain ATK)
Q0R5R4.3 Gag polyprotein; HTLV-3 strain 2026ND
P14077.3 Gag polyprotein; Human T-cell lymphotrophic virus type 1 (isolate MT-2)
Множественное выравнивание было выполнено Jalview Muscle с настройками по умолчанию. Поскольку белок выравнивается на целые полипептиды, необходимо отрезать концевые участки, не выровненные с целевой последовательностью.
Все шесть белков выравнивания гомологичны, поскольку имеют протяженные участки идентичных амк-т, а участки между ними по большей части состоят из схожих амк-т. Результаты подтверждают предположение о высокой степени гомологии капсидных белков Т -лимфотропных вирусов человека.
3.1 При запуске BLAST на поиск гомологов капсидного белка р24 среди вирусов (organism: Viruses (taxid:10239)) получено 29 результатов, то есть можно судить о том, что большинство гомологов данного белка принадлежат вирусным организмам, но не ограничиваются ими. Текстовая выдача программы по ссылке.
3.2 Для оценки доли вирусных белков в Swiss-Prot рассмотрим последовательность 1 (AC P14076.3). E-value изменился от 2*10-135 на 8*10-137. Теорема С. Карлина связывает длину исходной последовательности и размер базы данных (как суммарная длина всех последовательностей) через константы. Из этой теоремы следует, что доля вирусных белков в БД будет равна отношению E-value с ограничением/E-value по всем, то есть по данным для P14076.3 в Swiss-Prot доля вирусных белков составляет 2*10-135 / 8*10-137, то есть 0,04 или 4%.