Практикум 10

Поиск консервативных мотивов в выравнивании

Для выполнения практикума был выбран домен LNR. Это домен, обнаруженный в белках, родственных белкам Notch (это такие трансмембранные белки, которые образуют основной компонент сигнального пути Notch, который высоко консервативен у животных). Белков с этим доменом в UniProt 9 тысяч. В выравнивании seed 95 последовательностей. В статье Vlachakis, D., Papageorgiou, L., Papadaki, A., Georga, M., Kossida, S., & Eliopoulos, E. (2020). An updated evolutionary study of the Notch family reveals a new ancient origin and novel invariable motifs as potential pharmacological targets. PeerJ, 8, e10334. https://doi.org/10.7717/peerj.10334 я нашел информацию о консервативных мотивах домена LNR (Рис. 1.)


Рис. 1. Консервативный мотив домена LNR, изображение из статьи Vlachakis et al.

Далее я выровнял последовательности. Удалять ничего не пришлось (на уровне 90% remove redundancy ничего не удалилось), так как слишком похожих последовательностей нет. Нашел мотив, о котором говорилось в статье (Рис. 2.)

Рис. 2. В выравнивании seed выделен мотив, о котором говорилось в статье.


Паттер Jalview: C.[WFY]D[GNAD].[DE]C
Паттерн Prosite: C-x-[WFY]-D-[GNAD]-x-[DE]-C
Затем я выполнил поиск по этому паттерну в базе данных SwissProt в PROSITE. Нашлось 83 находки в 40 последовательностях. Попытка их выровнять не увенчалась успехом. Возможно это из-за того, что в моей записи паттерна недостаточно информации о частотности аминокислот на той или иной позиции. Например на второй позиции есть очень популярные аминокислоты, а есть совсем редкие.

Поиск мотива, специфичного для одной клады

Было построено филогенетическое дерево методом NJ в Jalview.
Я выбрал кладу, состояющую из 6 последовательностей. На Рис. 3. можно увидеть мотив этой клады.
Вот его паттерн: С-[NGS]-W-D-G-L-D-C (C[NGS]WDGLDC)

Рис. 3. Мотив, обнаруженный в одной из клад дерева, построенного по выравниванию seed


При поиске данного мотива по всему выравниванию seed, он нашелся в 11-ти последовательностях. Я посмотрел их на дереве (Рис. 4.), и оказалось, что они практические составляют одну кладу (за исключением 2-х последовательностей, которые в эту кладу должны входить, но данного мотива не имеют). Получается, что этот мотив нельзя назвать специфичным для определенной клады, так как группа, у которой он находится, парафилетична. А изначально выбранной группе он точно не специфичен, так как встречается и в других последовательностях.


Рис. 4. Серым выделена группа, которой характерен мотив С-[NGS]-W-D-G-L-D-C на дереве, построенном по выравниванию seed. Фиолетовая стрелка - последний общий предок клады, для всех представителей которой должен был бы быть характерен данный мотив, чтобы считать его специфичным для определенной клады.

PSI-BLAST

Я выбрал такой AC: C4Z088
Ингибитор клеточного деления, блокирующий образование полярных Z-колец. Он дестабилизирует филаменты FtsZ, сформировавшиеся до того, как они созреют в полярные Z-кольца. Предотвращает полимеризацию FtsZ.
Затем я запустил с этим белком PSI-BLAST по базе Swiss-Prot на странице BLAST в NCBI. Результаты в Таблице 1:

Таблица. 1. Поиск гомологов C4Z088 с помощью PSI-BLAST

Итерация Число находок выше порога = 0,005 Идентификатор худшей находки выше порога E-value худшей находки выше порога Идентификатор лучшей находки ниже порога E-value худшей находки выше порога
1 162 Q2P036.1 0.004 Q5F5V4.1 0.005
2 188 O25693.2 2e-09 отсутствуют -
3 188 Q9ZM51.1 1e-11 A7H8E6.1 0.012

Больше итераций не потребовалось, так как новых белков на третьей итерации не нашлось. Вот и нашли группу гомологов (разница E-value между худшей находкой выше порога и лучшей находкой ниже порога четко заметна).

Поиск de novo мотивов с помощью MEME в выборке поледовательностей с доменом из SwissProt

Выбор пал на белки с доменной архетиктурой D2HFC1. Кстати, они содержат LNR-домен. Всего их 296 штук. Я загрузил эти белки в формате fasta и попытался выровнять их программой muscle на kodomo с параметрами по-умолчанию. Но выравнивание обещало занять много времени, поэтому я не стал это делать. Поэтому я выбрал первые 55 последовательностей для поиска в них мотивов de novo с помощью MEME.
Запустил MEME на kodomo, вот отчет. Далее 100 последовательностей из тех 241, которые не были загружены в MEME, использовались для поиска обнаруженного мотива с помощью FIMO (отчет). Было найдено более 300 вхождений, на душе прямо-таки радостно и так тепло стало, ух!

Рис. 5. Два мотива, найденные MEME в белках с архетиктурой D2HFC1. Видно, что среди них нет мотива, который я рассматривал в предыдущих заданиях, хотя, вероятно, он мог бы найтись, если бы я задал искать более двух мотивов.

Оценка представленности сайта GATC в геноме Aquibium oceanicum

Вычислял контрасты в геноме Aquibium oceanicum при помощи программы cbcalc на kodomo:

cbcalc -s GATC.txt -M -o result.tsv GCF_001889605.1_ASM188960v1_genomic.fasta

В результате получил табличку, по которой построил гистограмму (Рис. 6.) контрастов obs/exp (наблюдаемое/ожидаемое) при помощи R-studio. Видно, что O/E отношение GATC больше единицы, значит он вполне может выполнять функцию сайта метилирования в геноме Aquibium oceanicum.

Рис. 6. Гистограмма контрастов obs/exp. Фиолетовый пунктир отмечает O/E = 1