Практикум 8

Задание 1

motif 1 — **Рис. 1.** Первый мотив в выравнивании. Окраска Clustal

motif 2 — **Рис. 3.** Второй мотив в выравнивании. Окраска Clustal с порогом по идентичности 100%

Для поиска мотивов из базы данных Pfam был выбран домен NifQ (AC: PF04891). Он входит в состав одноименного белка, участвующего в ранних стадиях биосинтеза железо-молибденового кофактора, который является важнейшей частью активного центра нитрогеназ - ферментов, осуществляющих восстановление молекулярного азота до аммиака (Siddavattam et al., 1993).

Выравнивание seed для данного домена содержит 50 последовательностей длиной порядка 160 аминокислотных остатков. При пороге percentage identity 100% окрашиваются несколько колонок во второй половине выравнивания, которые вместе с рядом менее консервативных позиций можно сгрупперовать в два мотива.

Первый из найденных мотивов (Рис. 1, 2) имеет следующие паттерны:

Jalview
N.{4}[KR]WK[KRA][FY]
PROSITE (fuzzpro)
N-x(4)-[KR]-W-K-[KRA]-[FY]

Триптофан является достаточно редкой аминокислотой, при этом в данном случае он окружен сразу тремя положительно заряженными остатками. Наряду с высокой консервативностью некоторых позиций мотива это позволяет сделать предположение о его важной функциональной роли в белке.

Второй мотив (Рис. 3, 4) почти сразу следует за первым, однако очень сильно отличается от него по составу и организации:

Jalview
C.{7,8}C.{2}P.C.{2}C.{5}C
PROSITE (fuzzpro)
C-x(7,8)-C-x(2)-P-x-C-x(2)-C-x(5)-C

По сути, мотив состоит из 5 остатков цистеина и одного остатка пролина, разделенных вариабельными участками фиксированной длины. Было показано, что атомы серы в остатках цистеина координируют ионы металла, что играет важную роль в работе белка (Siddavattam et al., 1993).

Рис. 2. Logo первого мотива

Рис. 4. Logo второго мотива

Из-за близости найденных мотивов в выравнивании (они разделяены всего 5 колонками) их можно чисто формально сгруппировать в один мотив, однако из-за больших структурных и, вероятно, функциональных различий между ними я решил рассматривать их по-отдельности.

Поиск по паттернам каждого из двух мотивов в Jalview дал 50 находок в соответствующих участках выравнивания.

Выдача от поиска в базе данных SwissProt по первому мотиву содержала 11 запиисей, из которых 4 принадлежали NifQ и его гомологам (NIFQ_SINFNб, NIFQ_KLEPNб, NIFQ_AZOVI и NIFQ_RHOCA), а остальные 6 не имели с ними видимой связи. Поиск по второму паттерну дал 20 белков, среди которых были все те же записи для NifQ наряду с двумя записями для металлотионеина-2 (цистеин-богатый белок, связывающий ионы тяжелых металлов) и 13 записями для разных форм кератина, для которого также характерно высокое содержание цистеина.

Задание 2

По выравниванию seed для домена NifQ было построено филогенетическое дерево методом Neighbour Joining (Рис. 5). После этого последовательности выравнивания были разбиты на группы в соответствии с его кладами. В 23 последовательностях, отмеченных на рисунке синей заливкой, в позициях 105 и 106 в выравнивании стоят два консервативных остатка аргинина. Легко заметить, что эти белки составляют обособленную кладу. В большинстве последовательностей других групп эти колонки заняты различными незаряженными остатками. Исключение составляют белки Q3A7R9_PELCD, G8AJR8_9PROT и G8AJR8_9PROT, у которых одна из вышеупомянутых позиций все же занята остатком аргинина.

Сам по себе участок "RR" встречается в выравнивании относительно часто, однако он находится в непосредственной близости от еще одной группы консервативных остатков. Таким образом, для найденного мотива можно записать следующий паттерн:

RR.{5}HLW

Поиск по нему в Jalview дает только 23 находки в последовательностях выделенной клады.

Рис. 5. Дерево, построенное по выравниванию seed для домена NifQ методом Neighbour Joining

Задание 3

Для выполнения этого задания была выбрана запись с AC P19954 в базе данных SwissProt, принаддлежащая рибосома-связывающему белку PSRP1 хлоропластов шпината (Ribosome-binding factor PSRP1, chloroplastic; Spinacia oleracea).

Для последовательности выбраного белка был запущен поиск Psi-blast через сайт NCBI. При этом был использован порог по E-value 0.005 для итераций Psi-blast и 1 для отображения находок (при значении по умолчанию 0.05 не было ни одной "неправильной" находки). Поиск проводился в базе данных SwissProt до стабилизации списка "правильных" (прошедших порог 0.005) находок. Результаты каждой итерации приведены в таблице ниже (Табл. 1).

Табл. 1. Таблица с результатами итераций Psi-blast

Номер итерации	Число находок выше порога (0,005)	Идентификатор худшей находки выше порога	E-value этой находки	Идентификатор лучшей находки ниже порога	E-value этой находки
1	17	P30334.1	0.004	P0AD49.2	0.064
2	28	P9WMA8.1	0.003	Q0C0T0.1	0.027
3	28	P9WMA8.1	7e-13	A5DDJ4.2	0.018

Уже начиная с третьей итерации, число находок с E-value меньше 0.005 прекратило изменяться. При этом худшая "правильная" находка на 11 порядков отличалась по E-value от лучшей неправильной, что является свидетельством высокой обособленности полученной группы. Таким образом, данное семейство является хорошо обоснованным с точки зрения сходства последовательностей входящих в него белков.

Задание 4

В данном задании было оценено соотношение ожидаемого и наблюдаемого количества сайтов "TA" в геноме бактерии Chlorobium limicola штамма DSM 245 (RefSeq AC: GCF_000020465.1).

Для подсчета реального числа искомых участков была использована программа wordcount пакета EMBOSS:

wordcount c_limicola_genomic -wordsize 2 -filter | grep "^TA"

Их количество составило 101248.

Далее было рассчитано ожидаемое значение с учетом GC-состава (51%) и длины (2763181 п. н.) генома:

μ = 0.245² × 2763181 = 165859.94

Ожидаемое количество сайтов "TA" оказалось примерно на 64612 (в 1.64 раза) больше наблюдаемого. Для оценки значимости различия был использован Z-тест (см. практикум 6). Значение Z-статистики составило -163.64, что соответствует крайне малому P-value (рассчитать его так и не получилось, так как все использованные для этого методы выдавали 0). Таким образом, можно утверждать, что количество участков "TA" в геноме Chlorobium limicola действительно занижено.

Литература

Siddavattam, D., Singh, M., & Klingmüller, W. (1993). Structure of the nifQ gene from Enterobacter agglomerans 333 and its overexpression in Escherichia coli. Molecular & general genetics : MGG, 239(3), 435–440. https://doi.org/10.1007/BF00276942