Практикум 10. Мотивы в белках.

Задание 1. Найти консервативные мотивы в выравнивании.
1. Выберем семейство - PF00070
2. Получим seed 3. Постараемся найти какой-нибудь хороший мотив. Получилось найти, пожалуй, единственный мотив в выравнивании: G.[GSD].{4}[ED] (Порог идентичности = 88%).
4. Выполним поиск по паттерну мотива: нашлось 105 совпадений. Показало не только место откуда был взят мотив, но и нашло его в других частях последовательностей. Выглядит достоверно.
5. Переведём мотив в формат Prosite: G-x-[GSD]-x(4)-[ED]
6. Проведём поиск в PROSITE в базе данных SwissProt. Prosite остановился после получения 1000 последовательностей. Нашлось 1361 совпадений с введённым мотивом.
Prosite_res.txt

Задание 2. Найти мотив, специфичный для одной клады филогенетического дерева.
1. Вернёмся к выравниванию seed PF00070.
2. Построим филогенетическое дерево с помощью NJ (BLOSUM62).

PF_tree.png
3. Выберем ветвь, отрезающую одну кладу.
ex_tree.png
4. Найдём консервативный мотив. V.G.{4}A.{6}L
5. Поищем данный мотив среди всех последовательностей. 14 результатов. 10 из клады (всего в кладе 13 последовательностей). Можно сделать вывод, что мотив специфичен.

Задание 3. Работа с PSI-BLAST.
1. Возьмём AC белка P47908 (Ribosome hibernation promotion factor) для задания. Этот белок может отвечать за модуляцию транскрипции и/или трансляции. Организм: Picosynechococcus sp. (strain ATCC 27264 / PCC 7002 / PR-6).
2. Проведём белковый BLAST данного AC по базе Swiss-Prot
3. Сделаем это несколько раз и заполним таблицу. (E-value threshold = 0.05)
table-psi_blast.xlsx PSI-BLAST также выдавал P47908.2 - он имел наименьший E-value, но так как это белок с AC, который мы вводили, для таблицы была взята следующая позиция из списка. Сами результаты BLASTов сошлись, все белки в выдаче были с такой же функцией как и белок в запросе, поэтому данные результаты можно считать хорошими.

Задание 4. С помощью MEME и FIMO найти мотивы в семействе доменов PF00070.
1. Скачаем выборку по таксону Viridiplantae. Скачаем FASTA файл.
full_PF00070.fasta 2. Отберём 50 последовательностей для поиска мотива. Работать будем в Jalview. Выравнивание сделать не получилось, выберем случайные последовательности.
sele_PF00070.fasta 3. Проведём на kodomo поиск с помощью MEME (meme sele_PF00070.fasta -o results -mod anr -minw 4 -maxw 8 -nmotifs 4).
Получили мотивы: NFCFGEGG WSDGKLVV TLVEFGAP VEPRGRDF
4. Проведём на kodomo поиск этих мотивов во всех остальных последовательностях с помощью FIMO (fimo -text results/meme.txt full_PF00070.fasta > fimo_res.txt)
fimo_res.txt Можем наблюдать, что FIMO нашёл данные мотивы и в остальных последовательностях.

Задание 5. Оценить представленность сайта GATC в геноме выбранной бактерии.
1. Выберем бактерию: Arcobacter cloacae.
2. Скачаем её полный геном.
Arcobacter cloacae 3. Воспользуемся методом Карлина. Нам потом нужно будет построить гистограмму с отношением наблюдаемого числа слов к ожидаемому, поэтому будем использовать Марковские цепи максимального порядка. Для сравнения добавим в гистограмму все сайты длины 4, полученные перестановками без повторений.
cbcalc -s sites.list -M -o GATC.txt Arc.fasta
Результаты

hist.png
Гистограмма отношений obs/exp для: GATC; GACT; GTAC; GTCA; GCAT; GCTA; AGTC; AGCT; ATGC; ATCG; ACGT; ACTG; TGAC; TGCA; TAGC; TACG; TCGA; TCAG; CGAT; CGTA; CAGT; CATG; CTGA; CTAG
Слева, обособленно стоит столбик с отношением obs/exp для GATC. То есть представленность сайта в полном геноме Arcobacter cloacae намного ниже ожидаемой. Также известно, что GATC метилируется, что даёт этому сайту функционал, возможно это объясняет его редкое появление в геноме.

Назад