Профили

Что такое паттерн и консенсус?

Паттерн - допустимые значения в каждой позиции последовательности.
Консенсус - способ записи мотива с учетом частоты встречаеиости значений в каждой позиции: каждой позиции соответствует самое часто встречающееся значение.

Подготовка таблицы с белками

Была выьрана архитектура R6P4E5_9CLOT.Она содержит 2 домена и встречается в 126 последовательностях:
1)Iron only hydrogenase large subunit, C-terminal domain
2)4Fe-4S binding domain
Критериями отбора послужили наличие этих доменов в бактериях и 60 < количество последовательностей << 1000.

Результаты

Все результаты доступны по ссылке в гугл таблицах.

Ход работы.

Использованные команды

Действие Описание
taxonomy:"Bacteria [2]" database:(type:pfam pf02906) database:(type:pfam pf00037) Поиск последовательностей в базе Nucplot по последовательностям мотивов.
На листе Calculation посчитана мода и также построен график на листе Graphs. График показал 2 различных хорошо выраженных пика. Но мной было принято решение взять последовательности длиной равной моде, поскольку их было уже >60 и мода имеет более близка к размерам архитектуры чем второй пик.
Все выбранные последовательности длиной равной моде перенесены на лист Selected. Оттуда на Uniprot перемещена колонка Entry. На листе Uniprot создавался запрос для добычи выбранных последовательностей из Uniprot.
Выравнивание последовательностей полученных из предыдущего пункта. Скачать выравнивание. Выравнивание производилось алгоритмом Muscle. Были убраны некоторые последовательнсти образующие большие индели. Также с N и C концов убраны несколько колонок до первых крупных консервативных доменов.
hmm2build hmm_pr.hmm align3.fa Построение профиля на основе выравнивания align3.fa, полученного пунктом выше.
hmm2calibrate hmm_pr.hmm Калибровка профиля
hmm2search -E 0.1 -T 0 hmm_pr.hmm uniprot_dom.fasta > final.fasta Поиск по профилю с E-value < 0.1 и без ограничений по весу. поиск в последовательностях домена 4Fe-4S binding domain Первые 6 колонок на листе hmm2search Result взяты из выдачи этой команды.
На листе hmm2search Result были посчитаны все необходимые параметры. Графики были построены в экселе, поскольку мне было неохота мучиться с американскими вариантом написания чисел в гугл таблицах. F1 max составил 0.784. Слабая чувствительность и около трети последовательностей не преодолели порог. Структуру вряд ли можно считать консервативной.