Практикум 10

Мотивы в белках паттерны и PSSM для их поиска

Задание 1. Найти консервативные мотивы в выравнивании

Для выполнения практикума с учетом заданных критериев был выбран домен PF00120. В выравнивании seed 57 последовательностей, в SwissProt 188 находок с этим доменом.

Далее это выравнивание было скачано с сайта InterPro и загружено в JalView. После удаления избыточных последовательностей, которые были на 90% идентичные, последовательностей осталось все также 56 штук, то есть последовательности идентичные на 90% отсутствуют.

Далее был выбран Color Clustal и выставен Above identity threshold 100%. Порог снижался порог пока не выделился мотив. Мотивом с лучшим информационным содержанием оказался мотив, расположенный на позициях 183 - 189. Мотив проявился на значении в 69%

Рис. 1. Выравнивание seed, Above identity threshold 69%.

Паттерн JalView: [AVTL][TCSNV][FLC][MAVHFL][PAI][KLE][PVYT]. Паттерн был найден во всех последовательностях.

По паттерну [AVTL]-[TCSNV]-[FLC]-[MAVHFL]-[PAI]-[KLE]-[PVYT] в Prosite было получено 1006 совпадений в 1000 последовательностях. Найденные белки выполняют разные функции и принадлежат разным организмам (и бактериям, и эукариотам), поэтому, скорее всего, нашлись случайно. Выравнивание подтверждает гипотезу - мотивы не выровнялись.

Результат выдачи ScanProsite.

Задание 2. Мотив, специфичный для одной клады филогенетического дерева

Было филогенетическое дерево методом NJ и выбрана клада (выделена розовым цветом).

Рис. 2. Филогенетическое дерево.

Последовательности этой клады были выделены в отдельное окно и найден мотив: H[HS]EV[AG].

Далее был проведен поиск по мотиву во всем выравнивании. Мотив нашелся не только в выбранной кладе, но и в родственной ей - выделенной желтым цветом. Можно сделать вывод, что этот мотив неспецифичен для данной клады.

Рис. 3. Поиск консервативного мотива клады в общем выравнивании.

Задание 3. PSI-BLAST

Был выбран идентификатор AC: Q67XL4. Нехарактеризованный CRM-домен-содержащий белок At3g25440, локализованный в хлоропласте Arabidopsis thaliana.

Таблица 1. Результаты поиска PSI-BLAST.
Номер итерации Число назодок выше порога (0,005) Идентификатор худшей нахожки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 18

Q9FFU1.1
0.004

Q9SL79.2 1.20E-02
2 23 P54454.1 2.00E-04 - -
3 25 Q58068.1 2.00E-06 - -
4 25 Q58068.1 2.00E-06 Q898C7.1 0.007

После третьей итерации Blast перестал находить новые последовательности.

Все белки, найденные в первой итерации принадлежат организму Arabidopsis thaliana значит, нашлось обособленное семейство.

Задание 4. Поиск в выборке поледовательностей с доменом из SwissProt de novo мотивов с помощью MEME

Для этого задания были скачаны 188 последовательностей белков с выбранным доменом из SwissProt. Из этого числа выбраны 60 последовательностей и запущен поиск мотивов с помощью программы MEME в этих последовательностях:

meme 60_PF00120.fasta -o results -mod anr -minw 4 -maxw 8 -nmotifs 4

Выдача: html, txt

Далее была запущена FIMO, чтобы провести поиск найденных мотивов в изначальном наборе из 188 последовательностей.

fimo results/meme.txt protein-matching-PF00120.fasta

Выдача: html

Было найдено 1264 вхождений (мотивов) в 188 последовательностях.

Задание 5. Оценка представленности сайта GATC в геноме бактерии

С помощью cbcalc на kodomo была получена представленность сайта GATC в геноме бактерии Pantoea eucrina:

cbcalc -s sites.txt -M -o result.tsv seq.fasta

Выдача: result.tsv

Рис. 4. Гистограмма контрастов O/E 24х сайтов бактерии Pantoea eucrina.

Сайт GATC имеет один из самых низких значений по сравнению с другими сайтами, можно сделать вывод, что метилирование данного сайта не играет важную роль в клеточных процессах в бактерии (вероятно сайтом метилирования является другой сайт).