Нахождение консервативных мотивов в выравнивании.

Для анализа я выбрала домен Rcd1 - транскрипционные кофакторы, которые опосредуют дифференцировку клеток. В базе данных Pfam этот домен содержит 50 последовательностей в выравнивании seed. При окрашивании Clustal и уровне IC=100% выделяется только 16 консервативных позиций. При понижении этого порого до 80% четко прослеживался мотив в позициях 137-152 (рис.1).

asn81
Рис. 1.Выравнивание seed для домена Rcd1, окрашивание Clustal IC=80%.

По этому мотиву получилось составить паттерн:E.L[RK]LTSLGVIGALVK. Проверив мотив через MyHits в БД Swiss-Prot было обнаружено 11 находок и все они относятся к домену Rcd1, т.е. мотив действительно консервативен для данного домена. Паттерн в формате Prosite: E-x-L-[RK]-L-T-S-L-G-V-I-G-A-L-V-K. Поиск по этому паттерну во всем выравнивании нашел его только в 28 последовательностях.

Поиск мотива, специфичного для одной клады филогенетического дерева.

Филогенетическое дерево я построила по алгоритму Neighbour-Joining и выбрала кладу, окрашенную зеленым цветом, так как эти последовательности наиболее близки по аминокислотной последовательности. Выполнила выравнивание отобранных последовательностей и применив порог процента идентичночности 100% получилось много консервативных позиций (Рис.3.). Найденный ранее мотив можно расширить: мотив можно расширить: T.S[KR].KPFEYLRLTSLGVIGALVK.Тем самым, проведенный анализ подтверждает консервативность найденного мотива для данного домена.

asn81
Рис. 2.Филогенетическое дерево, построенное алгоритмом Neighbour-Joining.
asn81
Рис. 3.Выравнивание отобранных последоватльностей, окрашивание Clustal IC=100%.
Составление семейства гомологов, пользуясь PSI-BLAST.

Выбор пал на белок с АС= P39450- S-(hydroxymethyl)glutathione dehydrogenase из семейства Алкоголь дегидрогиназ 3 класса. Белок найден в бактерии Photobacterium damsela subsp. piscicida и катализирует реакцию: S-(hydroxymethyl)glutathione + NAD(P)+ ⇌S-formylglutathione + NAD(P)H + H+. Для первой итерации были применены параметры: длина слова = 2.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 467 Q9ZGI4.1 0,005 D2S1F7.1 0,006
2 836 Q5KWK4.1 0,005 Q2RKY6.1 0,006
3 844 P55100.2 0,005 Q9KV64.1.1 0,006
4 1613 B2AH07.1 0,005 O01592.1 0,006
5 2897 B5YEM1.1 0,005 B5BL07.1 0,006
Поиск de novo мотивов в выборке поледовательностей с доменом из SwissProt

Последовательность в формате fasta была подана в программу MEME командой meme pr10_sem4.fasta -o meme_results -mod anr -minw 4 -maxw 8 -nmotifs 4. В результате работы программы было найдено 4 мотива (Рис.4-7.). А результат выдачи MEME в формате html доступен по ссылке

lys25
Рис. 4.Графическое представление мотива 1, найденного МЕМЕ.
asn81
Рис. 5. Графическое представление мотива 2, найденного МЕМЕ.
lys25
Рис. 6.Графическое представление мотива 3, найденного МЕМЕ.
asn81
Рис. 7.Графическое представление мотива 4, найденного МЕМЕ.
Оценка представленности сайта GATC в геноме выбранной бактерии

Для анализа взяла бактерию Bifidobacterium lemurum, выбранную в 9 практикуме. По метода Карлина и скрипта (Каримова Карина) был получен барплот (Рис.9.), отражающий представленность сайтов GATC в геноме.

asn81
Рис. 9. Гистограмма представленности для всех сайтов длины 4, полученных перестановками (без повторений) букв A, T, G, C.