Для выполнения практикума с учетом заданных критериев был выбран домен PF00120. В выравнивании seed 57 последовательностей, в SwissProt 188 находок с этим доменом.
Далее это выравнивание было скачано с сайта InterPro и загружено в JalView. После удаления избыточных последовательностей, которые были на 90% идентичные, последовательностей осталось все также 56 штук, то есть последовательности идентичные на 90% отсутствуют.
Далее был выбран Color Clustal и выставен Above identity threshold 100%. Порог снижался порог пока не выделился мотив. Мотивом с лучшим информационным содержанием оказался мотив, расположенный на позициях 183 - 189. Мотив проявился на значении в 69%
Паттерн JalView: [AVTL][TCSNV][FLC][MAVHFL][PAI][KLE][PVYT]. Паттерн был найден во всех последовательностях.
По паттерну [AVTL]-[TCSNV]-[FLC]-[MAVHFL]-[PAI]-[KLE]-[PVYT] в Prosite было получено 1006 совпадений в 1000 последовательностях. Найденные белки выполняют разные функции и принадлежат разным организмам (и бактериям, и эукариотам), поэтому, скорее всего, нашлись случайно. Выравнивание подтверждает гипотезу - мотивы не выровнялись.
Результат выдачи ScanProsite.
Было филогенетическое дерево методом NJ и выбрана клада (выделена розовым цветом).
Последовательности этой клады были выделены в отдельное окно и найден мотив: H[HS]EV[AG].
Далее был проведен поиск по мотиву во всем выравнивании. Мотив нашелся не только в выбранной кладе, но и в родственной ей - выделенной желтым цветом. Можно сделать вывод, что этот мотив неспецифичен для данной клады.
Был выбран идентификатор AC: Q67XL4. Нехарактеризованный CRM-домен-содержащий белок At3g25440, локализованный в хлоропласте Arabidopsis thaliana.
Номер итерации | Число назодок выше порога (0,005) | Идентификатор худшей нахожки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 18 |
Q9FFU1.1 |
0.004 |
Q9SL79.2 | 1.20E-02 |
2 | 23 | P54454.1 | 2.00E-04 | - | - |
3 | 25 | Q58068.1 | 2.00E-06 | - | - |
4 | 25 | Q58068.1 | 2.00E-06 | Q898C7.1 | 0.007 |
После третьей итерации Blast перестал находить новые последовательности.
Все белки, найденные в первой итерации принадлежат организму Arabidopsis thaliana значит, нашлось обособленное семейство.
Для этого задания были скачаны 188 последовательностей белков с выбранным доменом из SwissProt. Из этого числа выбраны 60 последовательностей и запущен поиск мотивов с помощью программы MEME в этих последовательностях:
meme 60_PF00120.fasta -o results -mod anr -minw 4 -maxw 8 -nmotifs 4
Далее была запущена FIMO, чтобы провести поиск найденных мотивов в изначальном наборе из 188 последовательностей.
fimo results/meme.txt protein-matching-PF00120.fasta
Выдача: html
Было найдено 1264 вхождений (мотивов) в 188 последовательностях.
С помощью cbcalc на kodomo была получена представленность сайта GATC в геноме бактерии Pantoea eucrina:
cbcalc -s sites.txt -M -o result.tsv seq.fasta
Выдача: result.tsv
Сайт GATC имеет один из самых низких значений по сравнению с другими сайтами, можно сделать вывод, что метилирование данного сайта не играет важную роль в клеточных процессах в бактерии (вероятно сайтом метилирования является другой сайт).