Паттерн - допустимые значения в каждой позиции последовательности.
Консенсус - способ записи мотива с учетом частоты встречаеиости значений в каждой позиции: каждой позиции соответствует самое часто встречающееся значение.
Была выьрана архитектура R6P4E5_9CLOT.Она содержит 2 домена и встречается в 126 последовательностях:
1)Iron only hydrogenase large subunit, C-terminal domain
2)4Fe-4S binding domain
Критериями отбора послужили наличие этих доменов в бактериях и 60 < количество последовательностей << 1000.
Все результаты доступны по ссылке в гугл таблицах.
Использованные команды | |
Действие | Описание |
---|---|
taxonomy:"Bacteria [2]" database:(type:pfam pf02906) database:(type:pfam pf00037) | Поиск последовательностей в базе Nucplot по последовательностям мотивов. |
На листе Calculation посчитана мода и также построен график на листе Graphs. | График показал 2 различных хорошо выраженных пика. Но мной было принято решение взять последовательности длиной равной моде, поскольку их было уже >60 и мода имеет более близка к размерам архитектуры чем второй пик. |
Все выбранные последовательности длиной равной моде перенесены на лист Selected. Оттуда на Uniprot перемещена колонка Entry. | На листе Uniprot создавался запрос для добычи выбранных последовательностей из Uniprot. |
Выравнивание последовательностей полученных из предыдущего пункта. | Скачать выравнивание. Выравнивание производилось алгоритмом Muscle. Были убраны некоторые последовательнсти образующие большие индели. Также с N и C концов убраны несколько колонок до первых крупных консервативных доменов. |
hmm2build hmm_pr.hmm align3.fa | Построение профиля на основе выравнивания align3.fa, полученного пунктом выше. |
hmm2calibrate hmm_pr.hmm | Калибровка профиля |
hmm2search -E 0.1 -T 0 hmm_pr.hmm uniprot_dom.fasta > final.fasta | Поиск по профилю с E-value < 0.1 и без ограничений по весу. поиск в последовательностях домена 4Fe-4S binding domain Первые 6 колонок на листе hmm2search Result взяты из выдачи этой команды. |
На листе hmm2search Result были посчитаны все необходимые параметры. Графики были построены в экселе, поскольку мне было неохота мучиться с американскими вариантом написания чисел в гугл таблицах. | F1 max составил 0.784. Слабая чувствительность и около трети последовательностей не преодолели порог. Структуру вряд ли можно считать консервативной. |