Консервативные мотивы в выравнивании

Для работы был выбран домен PF09239 (Topo-VIb_trans).

Члены этого семейства имеют структуру, состоящую из четырехцепочечного бета-листа, поддерживаемого тремя альфа-спиралями, последняя из которых имеет длину более 50 аминокислот и простирается от тела белка на несколько витков. Было высказано предположение, что этот домен опосредует межсубъединичную связь путем структурной передачи сигналов от доменов связывания и гидролиза АТФ в домены связывания и расщепления ДНК холофермента гиразы.

Seed включает в себя 67 последовательностей. Я скачала файл и перевела его в формат Jalview: PF14521.msf. После удаления реплик последовательностей количество осталось таким же. Above identity threshold установила на 100%. Уже здесь был замечен мотив:

R[YF][AV]N[KR][VI]PL

Он был найден в 62 последовательностях, что говорит о довольно высокой представленносии (IC).

Формат PROSITE: R-[YF]-[AV]-N-[KR]-[VI]-P-L

Поиск мотива проводился на сайте ProSite (ScanProsite tool) по БД SwissProt. Я получила 32 находки, соответствующие бета-субъединице топоизомеразы VI (на 27.03.24 в UniProtKB/Swiss-Prot содержится 571,282 белка).

Поиск мотива, специфичного для одной клады филогенетического дерева

Дерево было построено с использованием алгоритма NJ. Я скачала Newick–формулу и дополнительно проверила его в NGP Phylogenetic, укоренив в среднюю точку. Чётко выделялась одна клада из 13 белков (выделена синим, синий блок последовательностей). Она очень хорошо отделяется от остальных (см. рисунок ниже). Мотив, соответственно, я подстроила под текующую кладу:

RFANRVPL[LMVI]YQ[QR]G[AG]C

1
1
Я провела поиск по этому мотиву, результат – 15 находок. Две "лишние" последовательности - белки из соседней клады (выделена бежевым). Несмотря на это, по моему мнению, этот мотив можно считать специфичным для клады.

PSI–BLAST

Для работы с PSI-BLAST я выбрала AC P17265. Это фактор содействия гибернации рибосом. Необходим для димеризации активных 70S рибосом в 100S рибосомы в стационарной фазе; рибосомы 100S трансляционно неактивны и иногда присутствуют во время экспоненциального роста.

Результаты последовательных запусков PSI-BLAST приведены в таблице ниже.

1
После второго запуска количество находок перестало увеличиваться. Разницу между худшей находкой выше порога и лучше находкой ниже можно было оценить только на первой итерации: далее, находок выше порога не было.. Это говорит о том, что группа белков достаточно хорошо обособлена.

Поиск de novo мотивов с помощью MEME

Я выбрала домен PF08230 (CW_7). Этот домен первоначально был обнаружен в С-концевой части лизоцима Cpl-7, кодируемого бактериофагом Cp-7 Streptococcus pneumoniae (Швейцария: P19385). Он также обнаружен в гидролазах клеточных стенок патогенов человека и домашнего скота. Повторы CW_7 составляют мотив связывания клеточной стенки.

Выбрана данная доменная архитектура:

1
Последовательности белков с такой архитектурой можно найти тут.
Я отобрала 50 белков (первые 50), обновленный файл тут.

Далее были использованы следующие команды:

Для поиска мотивов: meme protein-sequences_reduced.fasta -o meme_results -minw 4 -nmotifs 4

Для FIMO: fimo ./meme_results/meme.txt protein-sequences_reduced.fasta

Выдача FIMO тут.

Представленность сайта GATC в геноме бактерии Campylobacter coli

Я работала с Campylobacter coli. Для начала я написала код, который создал всевозможные k-меры длины 4 из букв A, T, G, C (повторения не допускались). Его можно найти тут. Далее, я поместила все 4-меры в отдельный файл, разделив пробелами сайты, и запустила программу, дополнительно подав на вход геном моей бактерии:

cbcalc -s 4mers.txt campylo_fasta.fna > result.tsv

Выдачу можно найти тут. По этим данным я построила гистограмму контрастов (отношение наблюдаемой к ожидаемой частоте) по методу BCK:

1