Поиск консервативных мотивов в выравнивании
Для выполнения практикума был выбран домен LNR.
Это домен, обнаруженный в белках, родственных белкам Notch
(это такие трансмембранные белки, которые образуют основной
компонент сигнального пути Notch, который высоко
консервативен у животных).
Белков с этим доменом в UniProt 9 тысяч. В выравнивании seed
95 последовательностей.
В статье Vlachakis, D., Papageorgiou, L., Papadaki, A.,
Georga, M., Kossida, S., & Eliopoulos, E. (2020). An
updated evolutionary study of the Notch family reveals
a new ancient origin and novel invariable motifs as potential
pharmacological targets. PeerJ, 8, e10334.
https://doi.org/10.7717/peerj.10334
я нашел информацию о консервативных мотивах домена LNR (Рис. 1.)
Рис. 1. Консервативный мотив домена LNR,
изображение из статьи Vlachakis et al.
Далее я выровнял последовательности. Удалять ничего не пришлось
(на уровне 90% remove redundancy ничего не удалилось), так как
слишком похожих последовательностей нет. Нашел мотив, о котором
говорилось в статье (Рис. 2.)
Рис. 2. В выравнивании seed выделен мотив,
о котором
говорилось в статье.
Паттер Jalview: C.[WFY]D[GNAD].[DE]C
Паттерн Prosite: C-x-[WFY]-D-[GNAD]-x-[DE]-C
Затем я выполнил поиск по этому паттерну в базе данных SwissProt в PROSITE.
Нашлось 83 находки в 40 последовательностях.
Попытка их выровнять не увенчалась успехом. Возможно это из-за того, что в
моей записи паттерна недостаточно информации о частотности аминокислот на той или иной позиции.
Например на второй позиции есть очень популярные аминокислоты, а есть совсем редкие.
Поиск мотива, специфичного для одной клады
Было построено филогенетическое дерево методом NJ в Jalview.
Я выбрал кладу, состояющую из 6
последовательностей. На Рис. 3. можно увидеть мотив этой клады.
Вот его паттерн: С-[NGS]-W-D-G-L-D-C (C[NGS]WDGLDC)
Рис. 3. Мотив, обнаруженный в одной из клад дерева,
построенного по выравниванию seed
При поиске данного мотива по всему выравниванию seed,
он нашелся в 11-ти последовательностях. Я посмотрел их на дереве (Рис. 4.),
и оказалось, что они практические составляют одну кладу (за исключением
2-х последовательностей, которые в эту кладу должны
входить, но данного мотива не имеют). Получается, что этот мотив нельзя
назвать специфичным для определенной клады, так как группа,
у которой он находится, парафилетична. А изначально выбранной группе он точно
не специфичен, так как встречается и в других последовательностях.
Рис. 4. Серым выделена группа, которой характерен мотив С-[NGS]-W-D-G-L-D-C
на дереве, построенном по выравниванию seed. Фиолетовая стрелка -
последний общий предок клады, для всех представителей которой должен был бы
быть характерен данный мотив, чтобы считать его специфичным для
определенной клады.
PSI-BLAST
Я выбрал такой AC: C4Z088
Ингибитор клеточного деления,
блокирующий образование полярных Z-колец.
Он дестабилизирует филаменты FtsZ, сформировавшиеся до того,
как они созреют в полярные Z-кольца. Предотвращает полимеризацию FtsZ.
Затем я запустил с этим белком PSI-BLAST по базе Swiss-Prot на
странице BLAST в NCBI. Результаты в Таблице 1:
Таблица. 1. Поиск гомологов C4Z088 с помощью PSI-BLAST
| Итерация |
Число находок выше порога = 0,005 |
Идентификатор худшей находки выше порога |
E-value худшей находки выше порога |
Идентификатор лучшей находки ниже порога |
E-value худшей находки выше порога |
| 1 |
162
|
Q2P036.1 |
0.004 |
Q5F5V4.1 |
0.005 |
| 2 |
188
|
O25693.2 |
2e-09 |
отсутствуют |
- |
| 3 |
188
|
Q9ZM51.1 |
1e-11 |
A7H8E6.1 |
0.012 |
Больше итераций не потребовалось, так как новых белков на третьей итерации не нашлось.
Вот и нашли группу гомологов (разница
E-value между худшей находкой выше порога и лучшей находкой ниже порога четко заметна).
Поиск de novo мотивов с помощью MEME в выборке поледовательностей с доменом из SwissProt
Выбор пал на белки с доменной архетиктурой D2HFC1. Кстати, они содержат LNR-домен.
Всего их 296 штук. Я загрузил эти белки в формате fasta и попытался выровнять их
программой muscle на kodomo с параметрами по-умолчанию. Но выравнивание обещало занять много
времени, поэтому я не стал это делать. Поэтому я выбрал первые 55 последовательностей для
поиска в них мотивов de novo с помощью MEME.
Запустил MEME на kodomo, вот
отчет.
Далее 100 последовательностей из тех 241, которые не были загружены
в MEME, использовались для поиска обнаруженного мотива с помощью FIMO
(отчет). Было найдено более 300 вхождений, на душе
прямо-таки радостно и так тепло стало, ух!
Рис. 5. Два мотива, найденные MEME в белках с архетиктурой D2HFC1.
Видно, что среди них нет мотива, который я рассматривал в предыдущих заданиях,
хотя, вероятно, он мог бы найтись, если бы я задал искать более двух мотивов.
Оценка представленности сайта GATC в геноме Aquibium oceanicum
Вычислял контрасты в геноме Aquibium oceanicum при помощи
программы cbcalc на kodomo:
cbcalc -s GATC.txt -M -o result.tsv GCF_001889605.1_ASM188960v1_genomic.fasta
В результате получил табличку, по которой построил гистограмму (Рис. 6.)
контрастов obs/exp (наблюдаемое/ожидаемое) при помощи R-studio.
Видно, что O/E отношение GATC
больше единицы, значит он вполне может выполнять функцию сайта
метилирования в геноме Aquibium oceanicum.
Рис. 6. Гистограмма контрастов obs/exp. Фиолетовый пунктир
отмечает O/E = 1