Нахождение консервативных мотивов в выравнивании.
Для анализа я выбрала домен Rcd1 - транскрипционные кофакторы, которые опосредуют дифференцировку клеток. В базе данных Pfam этот домен содержит 50 последовательностей в выравнивании seed. При окрашивании Clustal и уровне IC=100% выделяется только 16 консервативных позиций. При понижении этого порого до 80% четко прослеживался мотив в позициях 137-152 (рис.1).
По этому мотиву получилось составить паттерн:E.L[RK]LTSLGVIGALVK. Проверив мотив через MyHits в БД Swiss-Prot было обнаружено 11 находок и все они относятся к домену Rcd1, т.е. мотив действительно консервативен для данного домена. Паттерн в формате Prosite: E-x-L-[RK]-L-T-S-L-G-V-I-G-A-L-V-K. Поиск по этому паттерну во всем выравнивании нашел его только в 28 последовательностях.
Поиск мотива, специфичного для одной клады филогенетического дерева.
Филогенетическое дерево я построила по алгоритму Neighbour-Joining и выбрала кладу, окрашенную зеленым цветом, так как эти последовательности наиболее близки по аминокислотной последовательности. Выполнила выравнивание отобранных последовательностей и применив порог процента идентичночности 100% получилось много консервативных позиций (Рис.3.). Найденный ранее мотив можно расширить: мотив можно расширить: T.S[KR].KPFEYLRLTSLGVIGALVK.Тем самым, проведенный анализ подтверждает консервативность найденного мотива для данного домена.
Составление семейства гомологов, пользуясь PSI-BLAST.
Выбор пал на белок с АС= P39450- S-(hydroxymethyl)glutathione dehydrogenase из семейства Алкоголь дегидрогиназ 3 класса. Белок найден в бактерии Photobacterium damsela subsp. piscicida и катализирует реакцию: S-(hydroxymethyl)glutathione + NAD(P)+ ⇌S-formylglutathione + NAD(P)H + H+. Для первой итерации были применены параметры: длина слова = 2.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 467 | Q9ZGI4.1 | 0,005 | D2S1F7.1 | 0,006 |
2 | 836 | Q5KWK4.1 | 0,005 | Q2RKY6.1 | 0,006 |
3 | 844 | P55100.2 | 0,005 | Q9KV64.1.1 | 0,006 |
4 | 1613 | B2AH07.1 | 0,005 | O01592.1 | 0,006 |
5 | 2897 | B5YEM1.1 | 0,005 | B5BL07.1 | 0,006 |
Поиск de novo мотивов в выборке поледовательностей с доменом из SwissProt
Последовательность в формате fasta была подана в программу MEME командой meme pr10_sem4.fasta -o meme_results -mod anr -minw 4 -maxw 8 -nmotifs 4. В результате работы программы было найдено 4 мотива (Рис.4-7.). А результат выдачи MEME в формате html доступен по ссылке
Оценка представленности сайта GATC в геноме выбранной бактерии
Для анализа взяла бактерию Bifidobacterium lemurum, выбранную в 9 практикуме. По метода Карлина и скрипта (Каримова Карина) был получен барплот (Рис.9.), отражающий представленность сайтов GATC в геноме.