Из Pfam я выбрала домен PF00030 - Beta/Gamma crystallin
В seed выравнивании этого домена из Pfam было 74 последовательностей, идентичных не нашлось (remove redundancy => 100%).
Нашла два мотива "Греческий ключ" (Greek Key Motifs) при постепенном уменьшении значения Above identity threshold.
Мотив греческого ключа - мотив четырех смежных антипараллельных бета-нитей, напоминает древнегреческие узоры.
Он играет важную роль в стабильности и функционировании белков. Часто входит в состав бета-бочонков, участвует в распознавании молекул, ферментативной активности и поддержании структурной целостности.
В кристаллинах нужен для стабильности структуры.
Паттерн Jalview этого мотива: [FYW].{4}[FY].G
Совпадений нашлось 133, в каждой последовательности нашелся хотя бы один мотив, в большинстве последовательностей - оба, "лишних" находок (более двух на последовательность) не было.
паттерн Prosite: [FYW]-x(4)-[FY]-x-G
Провела поиск по этому паттерну в базе данных SwissProt в PROSITE, обнаружилось 1226 находок в 1000 последовательностях (поскольку 1000 было максимальным числом, лимитом) из разных организмов: человека, дрожжей и пр.
Поскольку последовательностей было много, поставила минимальный Above identity threshold, затем сделала выравнивание mafft.
В результате получила несколько групп последовательностей, в которых мотив выравнялся (в пределах группы). Можно заключить, что мотив довольно распространенный, а при его поиске стоит, вероятно, учитывать повторения этого мотива и наличие консервативного Ser 24-30 остатков после мотива.
Методом NJ в Jalview построила филогенетическое дерево для последовательностей в выравнивании seed.
Выбрала кладу прокариот, в которую входит последовательность Q8TMX3_METAC, нашла мотив [FL]ND[RK][IAV]S{2}.
При поиске по всему выравниванию seed данный мотив присутствовал только в последовательностях этой клады, в последовательности Q21YN6_ALBFT/126-206 встретился два раза.
Мой вывод: данный мотив специфичен для этой клады, у эукариот, которые составляют другие клады, данного мотива нет.
Выбрала связывающийся с рибосомой фактор PSRP1 (AC: P19954)
Это белок Spinacia oleracea, он участвует в регуляции трансляции в зависимости от уровня освещения, температуры.
Стабилизация результата PSI-BLAST потребовала 3 итераций:
На 3 итерации новых белков не нашлось.
Разница в E-value для худшей и лучшей находок огромная. Все найденные белки - факторы, связывающиеся с рибосомой, большинство связаны с ингибированием трансляции.
Из этого делаю вывод, что PSI-BLAST справился с нахождением гомологов.
Скачала 71 последовательность (reviewed) из SwissProt, поставив фильтр по Taxonomy - выбрала млекопитающих (taxonomy_id:40674).
Две удалила, использовав remove redundancy - порог 100% identity.
Далее использовала следующую команду:
meme uniprotkb_PF00030.fasta -o results -mod anr -minw 4 -maxw 8 -nmotifs 4
Результат работы meme: html, txt
Нашлось 4 мотива с низкими E-value, наименьший был у мотива, который соответствует паттерну [FYW].{4}[FY].G:
fimo --oc fimo_do -motif YERPNFRG -thresh 0.001 results/meme.txt uniprotkb_PF00030.fasta
Результат работы fimo: html
Мотив встречается 338 раз в 69 последовательностях, что, в целом, соответствует информации о том, как часто должен встречаться паттерн, описанный выше.
Вычисление контрастов было произведено с помощью cbcalc:
cbcalc -s sites.txt -M -o res.tsv GCF_000830005.1_ASM83000v1_genomic.fna
Наиболее распространенными оказались CATG и AGCT, они могут быть сайтами метилирования.
Хорошо представлен и GATC (O/E > 1), вероятно он и выступает в качестве основного сайта метилирования как и у большинства бактерий.