BLAST. Выравнивания.

Задание 1

Проводился поиск гомологов для лигазы прокариотического убиквитиноподобного белка (INSDC CDS: CAF21502.1). В запрос я поместил аминокислотную последовательность белка в формате fasta. Прочие настройки: 1) Databases: Standart databases; 2) Database: UniProtKB/Swiss-Prot; 3) Algorithm: blastp 4) Max target sequences: 100; 5) Short queries: Automatically adjust parameters for short input sequences; 6) Expect threshold: 0.05; 7) Word size: 6; 8) Max matches in a query range: 0; 9) Matrix: BLOSUM62; 10) Gap costs: Existence:11 Extension: 1; 11) Compositional adjustments: Conditional compositional score matrix adjustment; 12) Filter: Low complexity regions

Всего по результатам запроса было найдено 67 белков(выдача запроса). Для множественного выравнивания были выбраны пять результатов: 1) Q8FTE6.1 - Corynebacterium efficiens YS-314, 2) C3PGA3.1 - Corynebacterium aurimucosum ATCC 700975, 3) Q6NH95.1 - Corynebacterium diphtheriae NCTC 13129, 4) B1VDV5.1 - Corynebacterium urealyticum DSM 7109, 5) C4LIK9.1 - Corynebacterium kroppenstedtii DSM 44385. Множественное выравнивание проводилось в программе Jalview, алгоритмом muscle(выравнивание). По результатам выравнивания можно заключить, что все выбранные белки являются гомологами, так как они имеют 33 высококонсервативных учатка, наиболее протяженный из которых составляет 41 аминокислотный остаток, что довольно много для выравнивания длинной 510 остатков. Гепы располагаются, в основном на концах выравнивания или же находятся в одних и тех же местах сразу у нескольких белков, а количество инделей составляет всего 8 штук, что также указывает на гомологию рассматриваемых белков.

Задание 2

Для поиска гомологов полипротеина был выбран полипротенин капсида вируса Хантаан(ID: GP_HANTV; AC: P08668; OS: Hantaan virus (strain 76-118) (Korean hemorrhagic fever virus)). Полипротеин разрезается на 2 белка, для дальнейшего изучения был выбран гликопротеин C, который занимает положение 649-1135 в полипротеине.

Для гликопротеина C был проведен поиск гомологов с теми же парамитрами запроса, что и для вышерассматриваемой лигазы (выдача запроса). По результатам запроса было обнаружено 16 последовательностей аминокислотных остатков, из которых пять были выбранны для множественного выравнивания(Q8JSZ3.1, P08668.1, P33455.1, P28728.1, P27315.1). Из всех выбранных белков наиболее очевидна неродственность белка Q8JSZ3.1, у них совпадает всего 73 белка, остальное - гепы, а потому было проведено новое множественное выравнивание без этого белка. Оставшиеся белки считаю гомологичными так как внутри последовательностей встречается лишь 1 геп, кроме того выравнивание показывает большое количество высококонсервативных участков, перемежающихся одним или двумя отлиающимися остатками(выравнивание).

Задание 3

Стоит отметить, что после ограничения запроса по таксону Viruses (taxid:10239), количество выдаваемых белков не изменяется и также равняется 16, в то время как E-value белка Q8JSZ3.1 снижается с 0,004 в первом запросе до 2е-04 во втором. Изходя из вышеприведенных значений значение E-value упало в 20 раз, что отражет размеры базы данных вирусных белков по отношений ко всем аннотированным Swiss-Prot белкам. Соответственно количество аннотированных вирусных белков в базе данных составляет 5%.

© Тумбинский Роман, ФББ МГУ, 2022